玩转《星际争霸》?谷歌AI碾压人类职业玩家

时间:2019-01-25 22:10:23 来源:互联网 作者: 神秘的大神 字体:

  据 Vox 报道,谷歌英国子公司 DeepMind 的人工智能(AI)系统已经征服了国际象棋和围棋游戏,并转向复杂的实时游戏。现在它以 10 比 1 的战绩,击败了《星际争霸2》((Starcraft II))的人类职业玩家,达到了新的里程碑。

  研究表明,很多美国人担心 AI 会取代他们的工作,包括 Uber 和 Lyft 的司机、快递员、接待员,甚至是软件工程师。今天一场精彩的表演赛表明,另一群人也应该为自己的“饭碗”担心了,那就是职业游戏玩家!

  DeepMind 开发的全新 AI 系统 AlphaStar,在《星际争霸2》中与多名职业玩家展开了对决,这是对 AI 能力发展到何种程度的惊人展示。《星际争霸》是一款复杂的战略游戏,要求玩家在任何时候都要考虑成百上千个选择,在漫长的征战之上做出最有回报的战略选择,并在信息不完善的快速变化环境中进行操作。每天有 20 多万场《星际争霸》比赛。

  DeepMind 的 AI 比赛在 YouTube 和 Twitch 上进行了直播,自视频于周二发布以来,不仅是游戏玩家,还有 AI 爱好者都对它寄予了厚望。结果令人震惊:AlphaStar 以 10 比 1 的战绩碾压人类玩家。AlphaStar 的成功震惊了观察人士。当然,它也犯了一些错误,有些十分明显,有些则令人感到怪异,但它还是取得了最后的胜利。

  虽然 AI 系统有时会利用计算机的天然优势——更快的反应时间和每分钟更多的操作,但 DeepMind 团队试图某种程度上限制其 AI 的能力,AlphaStar 的反应时间实际上比人类慢,每分钟操作也比专业人士少。相反,AlphaStar 是通过运用多种策略获胜的,展示了其对游戏中秘密行动和侦察方面的理解,在拥有优势时加大攻势,在战局不利时及时撤退。

  对于担心失业的视频游戏玩家来说,这不仅仅是个大新闻。它也展示了现代机器学习技术的非凡力量,并证实 DeepMind 以令人惊讶的新方式应用这些技术超越人类方面处于领先地位。《星际争霸2》是一款比国际象棋复杂得多的游戏。虽然 AlphaStar 尚未与世界上最好的游戏玩家较量,但这与 IBM 的“深蓝”(Deep Blue)与加里·卡斯帕罗夫(Garry Kasparov)之间的国际象棋比赛有很多相似之处,后者改变了我们所知道的计算机功能。这再次提醒我们,先进的 AI 正在到来,我们需要开始考虑如何安全部署它。

  哪些游戏不受 AI 影响?

  三年前,AI 初创企业 DeepMind 凭借神经网络 AlphaGo 在全球引起轰动。该公司随后被谷歌收购,目前是谷歌母公司 Alphabet 旗下的独立子公司。AlphaGo 超越了所有人类围棋专家,展现出一种令专业围棋选手惊叹和着迷的围棋策略。一年后,DeepMind 又推出了 AlphaZero,这是一款改进后的 AI 系统,用于了解两个人玩的游戏,可以通过训练来掌握围棋、国际象棋和其他具有类似属性的游戏。

  国际象棋和围棋都有些特殊的地方,这使得它们可以直接使用相同的机器学习技术。它们都是两个人玩的、拥有完美信息的游戏,这意味着任何玩家都不需要隐藏任何信息。在每轮对决中,棋手只需做出一个决定。在国际象棋中,玩家需要决定移动哪个棋子。在围棋中,在哪里放置新的棋子。

  而在像《星际争霸》这样的现代竞争电脑游戏,则要复杂得多。它们通常要求玩家一次做很多决定,包括决定把注意力集中在哪里。它们通常包含不完全的信息,不知道对手在做什么,也不知道你接下来要面对什么。

  大型 AI 研究机构 OpenAI 的 AI 工程师唐杰(音译)表示:“作为现代 AI 研究的基准任务,这类实时战略游戏真的很有趣。这其中有两个原因:玩家需要掌控长时间尺度,即从你做出决定到看到回报之间的时间长度。在国际象棋或围棋中,这种回报通常可以在棋局移动后立即进行评估,并检查棋局是否更容易获胜。”

  唐杰还称,在像《星际争霸》(或他所致力于的《DOTA》)这样的游戏中,你需要在一个小时内的每一秒做出 10 个决定,所以你需要考虑成千上万个动作。为此,当你考虑到“我如何能赢得这场比赛?”等因素时,这真是个难题。

  这些特性使得这些游戏成为非常适合 AI 的测试平台。深度学习系统,就像 DeepMind 擅长开发的那种,需要大量的数据来发展他们的能力,并且有大量关于人们如何玩游戏的数据。对于《星际争霸》和《星际争霸2》来说,人们已经在网上玩了 20 年了。对 AI 来说,它们代表着比国际象棋或围棋等游戏更大的挑战,但现有的数据足以让这种挑战变得可以克服。

  出于这个原因,AI 实验室对在网络游戏中测试他们的创作越来越感兴趣。唐杰工作的 OpenAI 始终致力于在《DOTA》游戏中,利用 AI 系统与职业玩家对决。DeepMind 早在 2017 年就与暴雪娱乐公司(Blizzard Entertainment)合作,推出了许多工具,用于在《星际争霸》等游戏上训练 AI 系统。如今,我们看到了这种努力的结果。

  《星际争霸》有不同的游戏模式,但竞技模式属于双人游戏。每个玩家都有些基本资源。他们建立自己的基地,派出侦察兵,当他们准备就绪时,派出军队进攻敌人的基地。谁先摧毁敌人所有的建筑,谁就是胜利者。有些《星际争霸》游戏结束得很快,你可以早早地建立军队,在你的对手准备好之前就把它派出去,并在 5 分钟内将其摧毁。

  其他游戏模式可能会持续一个多小时。我们观看了 AlphaStar 采用快速而积极的早期策略的比赛,也观看了持续时间明显更长的比赛,双方都派出了庞大的军队,并制造出先进的武器。然而,在这些比赛中,没有任何游戏持续时间超过半小时,这意味着我们没有机会看到 AlphaStar 如何处理《星际争霸》后期战役的表现,但那只是因为没有人能抵御 AlphaStar 足够长的时间,让它持续时间更长。

  今天,DeepMind 发布了 AlphaStar 和职业玩家在过去几个月秘密进行的 10 次游戏对决录像,然后在最新版本的 AlphaStar 和排名靠前的职业星际玩家之间直播了一场比赛。AlphaStar 前五场比赛的人类对手是职业选手 TLO。在这些比赛中,DeepMind 对一系列 AI 进行了为期一周的实时训练(在此期间,AI 相当于获得《星际争霸》200 年的游戏时间),每次训练的重点略有不同,然后选择表现最好的 AI 与人类对战。

  在拥有 200 年经验之后,AlphaStar 仍然犯了些明显的错误。在一场令人难忘的比赛中,AlphaStar 在“瓶颈处”来回行进,毫无意义地为反击做准备,而评论员则表达了深深的困惑。AlphaStar 没有使用所有可以使用的工具。尽管如此,它依然赢得了每场比赛,它的战术优势足以弥补其弱点。

  在与 TLO 的五场比赛后,DeepMind 团队让 AlphaStar 重新接受训练。在经过 14 天的实时训练后,来自锦标赛式训练环境的胜出者接受训练的时间相当于 200 年,而这种差别是显而易见的。AI 不再犯明显的战术错误。它的决定对人类观察者来说仍然不是总有意义的,但是很难识别出任何明显的错误。

  AlphaStar 接下来与更高等级的职业玩家——格列戈尔兹·科明兹(Grzegorz? Komincz,绰号 MaNa)对决,不像 TLO,MaNa 操作他最喜欢的种族(星际争霸有三个种族,而且大多数职业玩家专练不同的种族)。即使 MaNa 没有犯明显的错误,他也依然被打败了,这在很大程度上要归功于 AI 分裂和操纵其单位的能力,其协调性是任何人类都无法媲美的。AlphaStar 再次赢了每场比赛。

  唐杰表示:“这真的很有趣,也令人印象深刻。我一直在寻找的更高层次的东西,那就是战略与机制。也就是说,AI 是否擅长提出游戏的大方向,或者只是通过巧妙地执行糟糕的策略而获胜?AlphaStar 在这两方面的表现都很出色。它提出的高水平策略与职业玩家水平的人类玩家非常相似,它还有完美的机制可以遵循。”

  之后,DeepMind 又回到了绘图板上。在这 10 场比赛中,AI 有个人类玩家所没有的巨大优势:它能够看到地图上所有可见的部分,而人类玩家必须操纵摄像头才能看到。DeepMind 训练了新版本的 AlphaStar,它必须自己操纵摄像头。然后是 200 年的训练,并从自我对决中挑选最好的 AI 代理。

  在随后现场直播的比赛中,这款新的 AlphaStar AI 输给了 MaNa,它似乎受到了自身需要操作摄像头的严重阻碍,无法像早期游戏中其他版本的 AlphaStar 所采取的许多惊人策略。对于 DeepMind 来说,这次失利可能是个令人失望的结局,但这款 AI 只训练了七天。看起来,当它有机会接受进一步训练时,它将可能重新赢得比赛。DeepMind 发现,管理摄像头的 AI 只是稍弱了一点,并在奋起直追。

  目前 AlphaStar 的模型当然还有弱点。事实上,早期 AlphaStar AI 的许多缺陷让人想起 DeepMind AlphaGo 的早期比赛。早期发布的 AlphaGo 通常获胜,但经常会出现人类能够识别的错误。DeepMind 团队始终在改进它,如今 AlphaZero 不会犯任何人类可能会注意到的错误。

  很明显,AlphaStar 在《星际争霸》方面仍有改进的空间。它相对于人类的战略优势很大程度上来自于这样一个事实:作为一台计算机,它更擅长于微观管理。它的军队擅长侧翼包抄和智取人类军队,部分原因是它能同时指挥五支军队,而这是任何人类都无法做到的。

  在这些游戏中,很少有战术在职业游戏中得到广泛应用,因为 AI 的成功主要不是因为它在考虑人类局限性从而打败了人类,而是因为它找到了能够融入自身优势的战术。虽然从技术上讲,AI 的每分钟操作和反应时间都在人类的控制范围之内,但由于它的精确度更高,似乎仍有优势。更公平的做法可能是进一步限制 AlphaStar 的能力。

  人类在很多方面仍然比最好的 AI 具备更大优势。例如,MaNa 根据 AlphaStar 最初的五场比赛调整了自己对 AlphaStar 的反应,这可能会让他在直播比赛中获得优势。AlphaStar 做不到这一点,我们不太了解能够让 AI 在一场游戏中学到很多东西,然后在下一场游戏中应用这些经验的训练方法。

  尽管如此,解说员反复强调,AlphaStar 在很多方面都与人类惊人地相似。它知道如何佯攻,如何发动早期攻击,如何应对伏击,如何在地形上导航。早在需要煞费苦心地给电脑发布指令的时候,唐杰就一直在为游戏开发 AI。他说:“从那时起,我们在现代 AI 和现代强化学习所能做出的各种决定方面取得了巨大的进步,真是令人印象深刻。”

  在 AlphaStar 输掉的一场比赛中,有一件事它不知道该怎么做,那就是“好好比赛”。一旦比赛无望,它就像人类玩家那样认输。也许下次我们看到它的时候,它就会明白这些道理了,也许就再也不需要这些指导了。