那个下围棋的AI会玩《雷神之锤》了 玩得还挺溜

谷歌人工智能玩家在《雷神之锤》游戏中击败人类

• 作者 承曦 •
2019年06月02日15:37 • 腾讯科技

图片 1

谷歌旗下的“DeepMind人工智能实验室”过去曾经多次击败围棋等领域的人类优秀棋手,引发舆论热捧。据外媒最新消息,这家实验室最近又获得了优秀的成绩,在热门的第一人称射击游戏《雷神之锤III竞技场》中,DeepMind实验室的人工智能玩家在CTF游戏模式中击败了人类玩家。

据国外媒体报道,这并不是DeepMind人工智能程序第一次被证明能够击败人类玩家。2016年,这家实验室的人工智能旗手“阿尔法围棋”以4比1的比分击败了世界上最好的围棋选手之一李世石。

今年早些时候,谷歌透露,另外一个人工智能游戏玩家“阿尔法星”在一系列五场比赛中将两名职业星际争霸玩家拒之门外。

DeepMind实验室现在转向了《雷神之锤III竞技场》的CFT游戏模式,展示它超强的玩游戏能力。在这种游戏模式下,两个拥有多名成员的团队试图捕捉他们的对手的旗帜,并把它带回他们的主场(得分),同时也试图阻止他们的对手做同样的事,如果对手手中有旗帜,则需要将他们消灭掉。

很显然,这是一种多人进行的游戏,因此和过去的棋类游戏相比,对DeepMind实验室的人工智能技术提出了更大的挑战。多个人工智能玩家之间也需要进行更紧密的配合。

过去,DeepMind的人工智能程序在一对一的对抗中取得了胜利,比如围棋比赛和星际争霸游戏。该实验室的研究人员在“科学”杂志上发表的一篇论文中写道:“然而,现实世界包含多个代理(即实施人工智能操作的实体),每个代理独立地学习和行动,以与其他代理合作和竞争。”

DeepMind团队创建了一个名为“胜利”(The
Win)的程序,该程序是通过在《雷神之锤III竞技场》玩数千次CTF模式游戏来训练的。在短短几周内,该人工智能玩家就能够击败人类的对手,不过这个玩家的反应时间稍慢,没有形成太巨大的优势。

据报道,经过12个小时的训练之后,一些人类玩家只能够在四分之一的比赛中击败人工智能玩家。

事实证明,人类玩家在远距离射击方面表现得更好,但人工智能玩家更有能力在游戏区内进行路线选择,从而抢到旗帜。

一个有趣的现象是,当一个人工智能玩家和人类玩家组成一个团队时,团队的胜率比仅由人工智能玩家组成的团队高出5%。这表明人工智能程序能够适应人类玩家,换言之,人类与人工智能并肩工作确实会带来一些好处。

图片 2

图片 3

还记得那个击败了世界围棋冠军让整个围棋界颤抖的谷歌人工智能部门DeepMind开发的AI吗?现在DeepMind的另一个项目已经学会了玩《雷神之锤》这款游戏。

国际象棋和围棋曾是孩子的游戏。现在AI正在赢得夺旗游戏。这些技能最终会转化到现实世界吗?

DeepMind周二表示,它已经开发了创新和强化学习技术,使人工智能系统能够在《雷神之锤3:竞技场》的夺旗游戏中达到人类的游戏水平。

孩子们会在夏季营地开放空间玩夺旗这个游戏;同时,争夺旗子这个游戏画面也是Quake
III和Overwatch等热门游戏的一部分。

DeepMind表示,学习夺旗游戏是为了让各个人工智能独立行动,同时学会相互配合。这是一个非常困难的问题因为需要协同适应机制,整个环境也在不断变化。DeepMind在一篇博客文章中说。

无论是哪种情况,这都是一项团队运动。每一方都守卫一面旗帜,同时还要计划如何抓住对方的旗帜并将其带回到自己的大本营。赢得比赛需要良好的老式团队合作以及协调防守和攻击之间的平衡。

雷神之锤III竞技场是第一人称游戏,规则很简单两个团队在夺取对手旗帜的同时要注意保护自己的旗帜不被夺走但也可能产生复杂的结果。该游戏需要玩家与团队成员合作,同时在不断变化的各种地图中进行激烈竞争。

换句话说,夺得旗帜需要一套看起来似乎只有人工才能操作的技能。但伦敦一家人工智能实验室的研究人员表明,机器也可以攻克这项游戏,至少在虚拟世界中是可以的。

DeepMind表示,这些代理从未接受过关于游戏规则的指示,但能够以非常高的标准学习游戏。在随机混合人工智能代理与40名人类玩家的比赛中,代理的胜率很快就超过了人类。即使是很多人类玩家也认为这些代理比其他人类更具协作性。

在五月三十日发表在《科学》杂志上的一篇论文中,研究人员称他们在Quake
III游戏的夺旗环节中设计了自动“代理人”,这些“代理人”表现的就跟人类在操作一样。这些代理人能够自行组队来对抗人类玩家,也可以与他们并肩作战,根据情况相应地调整自己的行为。

事实上,代理会学习类似人类的行为,例如跟随队友并在对手的基地安营扎寨,DeepMind在其博客上说,总的来说,我们认为这项工作凸显了多智能体培训对促进人工智能发展的潜力。

隶属于Alphabet的DeepMind实验室的研究员Wojciech
Czarnecki表示:“这些代理人可以适应具有任意技能的队友。”

通过数千小时的游戏,代理人学会了非常特殊的技能,比如在队友即将获得旗帜的情况下极速跑去攻击对手的大本营。正如人类玩家所知,当对方旗帜被夺得并带到自己的大本营时,对家的大本营中会出现一面可以抢夺的新旗。

DeepMind的项目是努力构建人工智能应用于复杂三维动画游戏的一部分,这些三维动画游戏包括Quake
III、Dota
2和星际争霸II。许多研究人员认为:虚拟领域的成功最终将提升现实世界中人工智能的应用能力。

例如,这些技能可以使仓库机器人受益——当他们分组工作将货物从一个地方移动到另一个地方时,或者帮助自动驾驶汽车在交通拥堵时集中导航。位于旧金山的OpenAI实验室有着类似研究项目,项目负责人Greg
Brockman说道:“游戏一直是AI的基准。如果不能攻克游戏难题,就不能指望AI解决其他问题。”

直到最近,在像Quake
III这样的游戏中构建一个可以匹配人类玩家的系统才成为可能,以前看来似乎是不可能的。但是在过去的几年里,DeepMind、OpenAI以及其他实验室取得了重大进展,这要归功于一种称为“强化学习”的数学技术,这种技术使得机器能通过极端的反复试验和试错来学习。

通过一遍又一遍地玩游戏,这些自动代理人可以了解哪些策略能成功,哪些策略不成功。如果代理人在队友即将夺旗的情况下通过向对手的大本营移动而不断赢得更多积分,则会将这种策略添加到他的游戏策略中。

在2016年,同样使用这项基础技术,DeepMind研究人员构建了使得AlphaGo在东方围棋游戏中击败世界顶级玩家的系统。鉴于围棋游戏的巨大复杂性,许多专家曾认为这种突破不会这么早实现,而是起码将在未来十年内完成。

尤其是当涉及到队友之间的协调时,第一人称视频游戏的复杂程度是呈指数级的增长的。DeepMind的代理人通过大约45万轮游戏来学习如何夺得旗帜,在数周的训练中便积累了需要大约4年的游戏经验。起初,代理人惨遭失败。但通过学习突袭对手大本营时应该如何追随队友,他们逐渐了解到了这个游戏的精髓。

在完成这个项目以后,DeepMind的研究人员还设计了一个可以击败星际争霸II专业玩家的系统。在OpenAI实验室,研究人员构建了一个掌握Dota
2的系统,Dota
2这个游戏就像夺得旗帜的加强版本。今年四月,由五名代理人组成的团队击败了由五名世界上最优秀的人类玩家组成的玩家团队。

去年,人称Blitz的专业Dota 2玩家兼评论员William
Lee与代理人进行过一对一比赛,当时的版本不允许团队战;在当时,William对此表示兴趣平平。但是当代理人继续学习比赛并且参加团队战时,他对代理人的技巧感到震惊。

他说:“我曾经以为机器不可能打五对五的,更不用说赢了。我绝对被征服了。”

这种技术在游戏中的应用令人印象深刻,但许多人工智能专家质疑它是否最终能转化为解决现实问题。专注于人工智能的乔治亚理工学院计算机教授Mark
Riedl质疑到:DeepMind的代理人事实上并没有真正在合作。他们只是回应游戏中发生的事情,而不是像人类玩家那样互相交换信息。(甚至渺小如蚂蚁也可以通过交换化学信号进行协作。)

虽然结果看起来像是协作,但这是因为代理人作为个体本身是可以完全理解游戏中发生的事情。

负责该项目的另一位DeepMind研究员Max
Jaderberg则表示:“如何定义团队合作并不是我想要解决的问题。但是一名代理人在对手的大本营坐等旗子出现这种情况,只有在依靠队友时才有可能出现。”

像这样的游戏并不像现实世界那么复杂。Riedl博士说到:“3D环境旨在使导航变得容易。Quake的战略与协调很简单。”

强化学习非常适合这类游戏。在视频游戏中,很容易识别成功的指标:获得更多的得分。但在现实世界中,没有人能保持得分。研究人员必须以其他方式定义成功。

这一点是可以实现的,至少在简单的任务中。OpenAI的研究人员训练了一个机器人手像孩子一样来操纵字母块——告诉它给你看字母A,它就会拿字母A给你看。

在谷歌机器人实验室,研究人员已经证明机器可以学习拾取随机物品,例如乒乓球、塑料香蕉,并将它们扔到几英尺外的垃圾箱里。这种技术或许在将来可以应用到亚马逊、联邦快递和其他公司运营的大型仓库和配送中心。目前,这些工作还是由人类工作者来完成的。

如DeepMind和OpenAI这样的实验室要想解决更大的问题,他们可能开始需要大量的计算能力。因为OpenAI的系统在几个月内通过完成需要多年时间才能完成的45万多轮游戏学会了玩Dota,这依赖于成千上万的计算机芯片。Brockman表示光买这些芯片就让实验室花费了数百万美元。

卡内基梅隆大学研究员Devendra Chaplot表示,由各种硅谷大拿,其中包括Khosla
Ventures和科技亿万富翁Reid
Hoffman在内资助的DeepMind和OpenAI可以负担得起这些计算能力。但是,学术实验室和其他小型企业不能。对某些人来说,他们担心的是那些资金充足的实验室将主宰人工智能的未来。

但即使是大型实验室也可能没有将这些技术转移到现实世界的复杂性所需的计算能力,因为这可能需要更厉害的人工智能形式——人工智能需要学得更快。虽然机器现在可以在虚拟世界中赢得夺旗游戏,但让他们在夏令营中开放的场地上赢得游戏仍然无望,并且这将持续相当长一段时间。

网站地图xml地图