AI 真的强到吊打人类了吗?我看未必
最近这两天 AI 又是大火了一把,在 25 日凌晨 2 点,DeepMind 与暴雪合作进行了一场特别的直播,在这一场直播里,DeepMind 展示了其旗下团队研发的最新款 AI —— AlphaStar。
是不是感觉这个名字有一些熟悉?没错,DeepMind 正是研发了 AlphaGo、AlphaGo Zero 的、隶属于 Google 的 AI 公司,DeepMind 曾经凭借自己研发的 AI 打败了当时围棋棋力世界第一的柯洁。
这一次的 AlphaStar 是 DeepMind 最新研发的一款会打《星际争霸 2》的 AI,《星际争霸 2》是老牌游戏公司暴雪开发的一款即时战略游戏,其系列最初作《星际争霸》发行于 1998 年,是一代老玩家的经典记忆。
看到这里你可能会问了,为什么 DeepMind 这种世界一流的 AI 公司不大力发展 AI 在现实世界中的应用,反而投入不小的人力物力去研发这么一款只会打游戏的 AI 呢?
这是因为即时战略游戏中存在一个名叫「战争迷雾」的东西,它会使你只能看见你自己视野范围内的东西,整个地图上其他的东西你是看不见的,例如对手在干什么、造了什么东西,如果你没有单位去侦察是看不见的。
这使得对局双方掌握的信息变得不对称,在这样的情况下,AI 需要做出更多预测性的决策、对一些突发的情况有着更好的掌控。在这种对局中 AI 需要「主动地探测信息」,并根据这些有限的信息还原出当下游戏对局的情况,进而做出时间、空间方面的长远预测,实现对总体游戏局面的掌控。
《星际争霸 2》恰好就是市面上这一类即时战略游戏中竞技性非常强、对局中可用策略繁多、难度较高的一款游戏,同时暴雪也愿意向人工智能方面的开发者提供编程接口,以至于目前全球的 AI 团队基本上都在这款游戏里进行新一阶段的 AI 研究。
实际上在这一次 DeepMind 的公开演示之前,全球的一些 AI 团队实际上已经进行了一些技术比拼或是类似的人机对战,之前的 AI 多是和星际争霸内置的「AI」进行对局,这一次 DeepMind 的演示是全球首次公开的 AI 和人类职业玩家的对抗。
笔者是看了这一次人机大战的全程直播,DeepMind 和职业玩家的对局实际上是放的录像,在直播的结尾才进行了一场现场直播对决。
可能是考虑到 AI 能力上的局限,Google 这一次是限定只用一张地图进行神族 vs 神族的对战,这样的限制对 AI 是利好的,因为《星际争霸 2》地图的多样和不同种族单位之间的差异对 AI 而言是海量的信息,这些信息目前的 AlphaStar 或许并不能很好地处理。
在这样的规则下,最终 AI 以 10:1 的成绩战胜职业玩家,其中前十盘是在 DeepMind 总部进行,AlphaStar 全胜。直播是挑选了部分进行录像回顾,所有的录像在直播后都已公开,前五盘是与 Liquid 战队虫族选手 TLO 的对局,后五盘是与 Liquid 战队神族选手 MaNa 的对局。直播的最后一场是 MaNa 现场对阵 AlphaStar,该场对局为现场直播,MaNa 取胜。
其实这一次的人机对战中三个部分的对战 DeepMind 拿出的 AlphaStar 并不是相同的,实力上有明显的强弱之分,在直播中 Google 也有提到对阵两个不同的职业玩家他们拿出的 AI 训练时间是不同的。虽然 10:1 的战绩非常辉煌,但是笔者个人感觉这是 DeepMind 有意为之。
参与前五场对局的 TLO 是一个职业虫族玩家,神族是他的副族,从直播放出的录像来看 TLO 的神族水平不是很高,由于 AlphaStar 本质上是个超强机器,它在对局中的运营做到了一种近似极致的严苛,资源采集的效率、出兵的节奏都很稳定。
由于神族只是 TLO 的副族,所以即使 TLO 的操作比 AI 还要迅猛,但出于自己的不够熟练,TLO 但是在运营上就被 AlphaStar 轻松超越不少。后续的几场对局中我们可以明显看出来这几场 TLO 落败不是因为 AI 太过于强力,而是因为 TLO 的神族有些菜。
现场使用的《星际争霸 2》还是比较旧的版本,这应该加重了 TLO 对游戏的不适应,在现场播放的第二场录像中,TLO 多次脸接自爆球导致全军覆没,双方的操作存在非常大的差距。
就 TLO 和 AlphaStar 的对局情况来看,这几场对局不能说明 AI 是处于人类职业玩家之上的。
后五场和 MaNa 的对局相较而言更有说服力,因为 MaNa 本身主玩神族,这意味着他在运营和操作上是世界数一数二的顶尖级水平。可能 DeepMind 方面也是考虑到了 MaNa 和 TLO 实力的差距,所以他们在这五场中使用的 AlphaStar 是经过加强的。
在后续和 MaNa 的对局中 AlphaStar 展现出了非常惊人的操作,AI 在操纵「追猎者」这个单位上展现出了一些「非人类水平」的东西,即使是一些职业玩家的巅峰时期,也难比 AlphaStar 的这一波操作。
在对局中 AlphaStar 有时是通过精准的阵型包夹取胜,但在这些对局中 AlphaStar 更多地是依赖非常极限、边缘的微操来取胜的。在《星际争霸 2》这款游戏中,AI 靠操作取胜是没有意义的,因为微操决定这款游戏胜负的一个重要元素,AI 能够频繁打出非人类操作就能非常轻松地实现对人类玩家的碾压。
在这样的展示中,不论是参与到比赛的职业玩家,还是我们这些观众,实际上更希望看到的是 AlphaStar 出奇的战略,而不是单纯通过严密的流程化运营、贴近边缘的极限操作来吊打人类玩家。
除此之外,专业人士在对这些对局进行解说的时候也表示,在对局中职业玩家的一些做法也有些不合常规。
笔者个人认为这个 10:1 的战绩水分不小,这样的战绩可能是出于宣传或商业需求而有一些刻意为之。
最后一场直播对局中,MaNa 显然是有意针对了 AlphaStar 的打法,用空投不朽进行骚扰,同时在家中布防。MaNa 不断地骚扰让 AlphaStar 的大批部队来回奔走,给自己争取时间 —— 这反映出了 AI 在分兵上颇有问题,这个问题在之前的对局中也有所暴露,但之前的对局 AI 却也打出过一些分兵包夹这样的操作。
可能对于骚扰、对于多线操作,AI 还并不是那么擅长。在这一局中,AI 的操作明显没有那么精准,而且 MaNa 采用了非常高压的打法 —— 直冲基地,在这种情况下 AI 的判断出现了失误,最终落败。
实际上目前的 AI 在这样的即时策略游戏中还是比较难应对过于复杂的突发情况和高压情况,类似的事情也在 OpenAI 在《Dota 2》这款游戏中对阵职业级玩家的时候有出现过,虽然当时 OpenAI 的水平本身就有一定问题,但是 OpenAI 的操作是非常精准的,当时的表演赛明显暴露出 OpenAI 在应对游戏中各种突发状况的时候非常不灵活,面对游戏中巨量的可能时常做出一些错误的判断,最终落败。由于《Dota 2》更讲究策略、团队配合、战术,以至于 AI 的精准操作并没有能够在对局中起到很强的作用。
这个情况实际上和 AlphaStar 与 MaNa 最后一局的表现情况类似,当打法脱离流程,展现出更多意想不到的时候,AI 的计算就不那么靠谱了。距离完全吊打人类玩家,AI 还是需要再进步一些。
当然,这并不意味着 DeepMind 的 AI 并没有什么亮点,在直播中没有播放的 AlphaStar 对阵 MaNa 的第五局中,AI 在这一局主动地脱离了一些非常流程化的操作尝试了一些不一样的打法。
在这一局中 AI 尝试了封气矿、野 VR(VR,游戏内的机械台,用于生产高级单位)等操作,这让我们看到 AI 还是懂那么一点野路子的,他们也不完全是一个循规蹈矩,按照一个固定的最优解去和玩家进行对局的东西。
笔者个人认为这一次的 10:1 中 AlphaStar 更多还是胜在了微操上,就打法来看,而且 AI 的打法给人的感觉还是比较单一和僵硬,对突发情况的控制不太好,例如在对阵 MaNa 的很多局中 AI 都选择大批量地生产追猎者,总体的策略都过于偏向前期,后期能力很弱。
在直播的对局中 MaNa 就通过骚扰拖延时间通过高级兵种的压制力和高压的打法取胜。这说明 AI 并不是无懈可击的,它还有很多的弱点,而且要知道,这只是限定了地图的镜像种族对局。
确实,DeepMind 凭借强大的算力已经让 AlphaStar 迭代到了一个很强的水平,但要让所有玩家能够像服 AlphaGo 的实力那样对 AlphaStar 的实力心服口服,DeepMind 还有不少的事情要做。