教 AI 打牌打游戏,不止是为了战胜人类

昨日,DeepMind 宣布其研发的 AI——AlphaStar 将会登录欧服,匿名在天梯上与人类玩家进行《星际争霸 2》比拼。今天,Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ,在六人局的德州扑克比赛中击败人类顶级玩家的消息又刷屏。AI 在游戏比赛中的表现越来越突出,但我们不断训练 AI 在游戏中去战胜人类,最终的目的与意义是什么?

就在昨天,DeepMind 宣布,其研发的 AI AlphaStar  近期将会登录欧服,并匿名在《星际争霸 2》中和人类玩家在天梯竞技。今天,Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ,在六人局的德州扑克比赛中击败人类顶级玩家。

为啥 AI 总对棋牌游戏这么感兴趣,而且背后的团队也在那么不遗余力的拿下游戏和棋牌比赛呢?

从最复杂策略游戏《星际争霸 2》说起

《星际争霸》(StarCraft)由暴雪娱乐在 1998 年推出,其续作《星际争霸 2》于 2010 年发行。它被认为是近年来最难、最硬核的一种即时战略游戏,在各种游戏纷纷被 AI 攻克的情况下,它却是 AI 比较难掌握的游戏类型。

游戏通过俯视视角对战场的军队下达指令,玩家收集资源建造建筑、组建军队并升级,再和其他玩家对抗

为了获胜,玩家必须谨慎地平衡和处理多方面的因素,及时作出规划和应对策略。和只依赖于策略的棋类游戏不同,在这个游戏中,AI 要玩得出彩,需要面对多个方面的挑战,包括应对不完美信息,进行长期规划,学会及时策略等等。

但在去年 12 月,这个情况被彻底改变了。在人类 vs AlphaStar 的 11 场《星际争霸 2》比赛中,AI 碾压式地以 10:1 大获全胜。至此,AI 在星际争霸这个游戏上,又留下了浓重的一笔。

AlphaStar 的行为是由深度神经网络生成的,该神经网络接收游戏界面的输入数据(单位及其属性列表),并输出构成游戏内动作的一系列指令。

基于不完美的信息,游戏通常持续长达一个小时,需要成千上万次移动。星际争霸的每一帧都用作输入的一步,神经网络预测每帧之后剩余部分的预期行动顺序,然后采取最佳的行动。

Alphastar 与人类职业玩家数据对比:观察和行动之间的总延迟,高下立现

DeepMind 解释说,AlphaStar 对战的成功,实际上是由于卓越的宏观和微观战略决策,而不是优越的点击率、更快的反应时间。

而这项技术还有助于机器学习研究中的许多其他挑战,包括长期序列建模和大输出空间,如翻译,语言建模和视觉表示等。

AI 在棋牌游戏中已经称霸

  • 1997 年,计算机程序「深蓝」击败当时世界第一棋手,开启了 AI 战胜人类游戏玩家的历史;
  • 2017 年 5 月,不断成长的 AlphaGo 以 3:0 战胜当时世界围棋水平最高的棋手柯洁。之后,仅仅时隔 5 个月,DeepMind 公布了一种新的算法变种,即 AlphaGo Zero,能够以 100 比 0 的比分狂虐 AlphaGo;
  • 2018 年底,Uber AI 研究院通过强化学习算法 Go-Explore,在 《蒙特祖玛的复仇》中获分超过 200 万,平均得分超过 40 万,被称为 Atari 游戏史上最强通关算法;
  • OpenAI Five  先依靠 5 个神经网络组成的 OpenAI Five  击败 Dota 2 的业余玩家队伍。在 2019 年 4 月, Dota2 国际邀请赛中以 2:0 吊打世界冠军 OG 战队。
看起来 Dota2 已经被 OpenAI 完全拿下
  • 然后就是在最近,德州扑克赌神 AI——Facebook 与 CMU 联合打造的 Pluribus,在六人局中,击败人类顶级德扑选手,平均下来每个小时就能获利近一千美元

而团队训练出这个德扑赌神 AI ,只用了不到一个星期。

Pluribus 还会在比赛过程中虚张声势,生生唬住人类玩家

人类已经培养出了如此之多的 AI,在多个复杂的电竞游戏中战胜人类顶级玩家,让人类瑟瑟发抖。

但是,AI 是为了娱乐才玩游戏的吗?先战胜人类,再服务于人类

为了教算法下围棋、电子竞技、打扑克,这些 AI 公司花费了不少心血,态度可以说是非常严肃认真了。

OpenAI 他们甚至还专门开发了一个叫做 Gym 和 Universe  的开源平台,可以让每个人都用这个平台教计算机玩游戏,Gym 用来玩 Atari,Flappy bird,贪食蛇这种小游戏,Universe 则用来玩 GTA5,赛车这种大型 3D 游戏。

OpenAI Gym 公开发布的游戏数量达 1000 多个

他们耗费巨大精力财力,只是为了玩游戏来娱乐吗?或者,是让 AI 打败人类这件事,能够给他们极大的成就感?并不是,对于 AI 研究者来说,游戏只是方法,绝非目标。

  游戏环境:是 AI  整体发展的加速器 

游戏,是完美的 AI 测试平台。游戏有方便处理的数据,固定的规则,多种可假设的策略,游戏也就是模拟场景,它对于人工智能的研发来说是一个非常理想的场所。

星际这类游戏背后有着复杂的策略和数据

纽约大学游戏研究中心副教授 Julian Togelius 说,「我们还没有看到很多东西是通过游戏训练,然后再转移到现实世界的。但我们已经看到,为玩游戏而发明的方法,转移到了现实世界。」

  游戏 AI :是人类玩家最好的老师和对手 

一方面,AI 可以帮助发现一些更完美的策略,提高人类玩家竞技技能。柯洁就认为和 AlphaGo 的对战,让他打开了思路,提高了围棋水平;

另一方面, AI 的介入,会为很多游戏打造一个更智能的对手,经过调整的 AI,不仅能够成为人类玩家的教练,适配不同玩家的水平与之对战。

还能够避免如今游戏里的人类玩家动辄相互发飙,如果有一个佛系 AI 在你的对面,一定能维持一个更加文明的游戏环境。  游戏只是个开始:广阔天地,大有作为 

DeepMind 的 CEO 戴密斯·哈萨比斯 (Demis Hassabis) 说:「DeepMind 的目标不仅仅是获得游戏胜利,还要从中获得乐趣和启发。」

据说,超级玛丽是 AI 研究者最喜欢的游戏

「但从个人角度来说,我喜欢玩游戏,我也曾开发过电脑游戏。可是从某种程度上说,它们又都是试验台,即尝试编写算法并对其进行测试的平台。最终,我们希望能将技术应用于解决现实世界的难题。

未来,AlphaGo 和 AlphaStar 将不仅仅只是 AI 玩家的名字、去操控游戏中的英雄,DeepMind 也不会局限于解决游戏的问题,他们将会成为人类社会的 AI 英雄。

—— 完 ——

点击阅读原文