人工智能在游戏(人工智能在游戏中的应用论文)

Mark wiens

发布时间：2022-09-19

DeepMind用同一个算法，攻克了国际象棋、将棋、围棋和雅达利游戏。动图来源：DeepMind

开发出人工通用智能，一直是人工智能研究的一大目标。此前的许多算法虽能精通诸如围棋、象棋等游戏，却无法触类旁通，每遇到新的游戏都需要更改框架，重新学习，更不用说将棋类游戏的方法搬到电脑游戏上了。然而就在昨天，曾开发AlphaGo的DeepMind公司在《自然》上发文，正式宣布了MuZero：这个新的算法不仅精通围棋、国际象棋和将棋，还能在30多款雅达利（Atari）游戏上全面超越过去的人工智能算法和人类。MuZero的正式发布，为人工智能领域揭开了新的篇章。

故事从2014年开始，基于伦敦的DeepMind公司怀着一腔雄心壮志，着手建造一个巨大项目：他们想要将正在生根发芽的人工智能（artificial intelligence，简称AI）技术大面积地应用到人类生活场景中，让机器与人真正地互动并融合。

他们决定从国际象棋入手：这是一个需要长期计划能力的人类游戏，对初出茅庐的AI技术来说是一项严峻的挑战。即使在1997年IBM的深蓝（Deep Blue）击败当时的国际象棋冠军卡斯帕罗夫之后，棋类AI的发展仍步履维艰。以围棋（Go，即日语碁字之转写）为例：2013年，AI在不让子的情况下几乎无法击败人类职业选手。

2016年，AlphaGo横空出世，以4:1击败韩国选手李世石，并在2017年的乌镇围棋峰会上击败了世界第一棋手柯洁。中国围棋协会当即授予AlphaGo职业围棋九段的称号。

如果说AlphaGo的成功确立了AI的围棋霸权，随后的AlphaGo Zero和AlphaZero则进一步揭示了棋类霸权的可能性。作为AI算法，不论是AlphaGo还是其继位者，都需要大量的训练。AlphaGo依赖于专家棋法（expert moves）数据集，而AlphaGo Zero舍去了这一步，直接与自己对战以为训练提供数据。AlphaZero则除了围棋，更学会了日本象棋（将棋）和国际象棋。值得一提的是，2018年底发布的AlphaZero，从第一次见到棋盘，到成为世界级棋类大师，只用了24小时。

DeepMind公司在过去几年中陆续开发了AlphaGo、AlphaGo Zero、AlphaZero和MuZero。图片来源：DeepMind，翻译制图：罗丁豪

然后，MuZero来了。一篇昨晚正式发表于《自然》的论文，揭示了一个更加通用、强力的算法：MuZero不仅能下围棋、将棋和国际象棋，还在30多款雅达利游戏中展示出了超人类表现（superhuman performance）。

最重要的是，没人教过MuZero这些游戏的规则。

无师自通

自古以来，哲学家和科学家都幻想着有朝一日能造出人工通用智能（artificial general intelligence）。简单地说，人工通用智能需要有极高的可塑性（flexibility），从而适应（甚至精通）各式不同的任务：一个能下棋、玩游戏、做家务、开飞机的AI。然而在此之前，最好的AI算法也只能精通数个同类任务；会下围棋、将棋和国际象棋的AlphaZero就是一个例子。

这种限制，在很大程度上来自AI算法对规则的依赖性。要想让AlphaZero下好各种棋，人类需要明确地教它各种棋的规则。以国际象棋为例，AlphaZero知道象只能斜着走，还不能跨过障碍物，而马可以跨过障碍物，但需要走日字。AlphaZero也知道什么是输赢和平局。可是一旦更换棋种，人类就需要将新棋种的规则从头教给AlphaZero。

AlphaZero（简称AZ）对战各个此前最强的棋类AI。图片来源：DeepMind，翻译制图：罗丁豪

既然这种依赖性限制了目前AI算法的应用范围，那最简单的解决方案，就是去除这种依赖性：人类可以不教AI下棋，只给它一个棋盘。每当AI选择了下一步该如何走时，人类才告诉它这一步合不合法，并且是否导致了输赢或平局。

——这就是MuZero面临的情境。对于任何一个游戏或任务，MuZero所掌握的只有一套思考方式，并没有该任务的行为准则。它不知道国际象棋里的马该怎么走，也不知道将棋中如何达成王手。如同第一次见到电脑的小孩，MuZero具有作出推理论断的思维工具，但不知道如何才能赢得扫雷。

跟人类一样，MuZero的秘诀，在于摸着石头过河，为外部世界建立一个只属于自己的模型（internal model）。在这个内部模型中，MuZero舍弃了一切表面上的规则，只留下对决策有用的信息：价值（value，即当前决策有多好）、策略（policy，即最好的下一步是什么）和奖励（reward，即上一步有多好）。

MuZero能为外部世界建立模型，从而指导自己在不同任务中的策略。图片来源：Connor Shorten，翻译制图：罗丁豪

要明白这种策略的特殊和有效性，我们可以拿MuZero和AlphaZero的神经网络作对比：

互联网小常识：三网融合指的是：计算机网络、电信通信网和广播电视网。

任何深度学习算法在面对棋盘时，第一步总是观察。AlphaZero能观察当前棋局（），并直接利用计划未来的棋步。这要多亏了它所知道的棋类规则：它明白做出一个动作（action）后的下一个棋局长什么样，并可以在下一个棋局的基础上继续规划棋路，想象并评估各种不同的可能性。这样的规划方式，在深度学习上称为蒙特卡洛树搜索（Monte Carlo tree search，MCTS）。MCTS允许算法探索不同的可能性，并从中择出最优的动作。因此，熟知规则的AlphaZero要想精通棋类，只需要一个神经网络（neural network），即预测网络（prediction network），给输入一个状态，它就能给出这个状态的价值（）和潜在策略（）；通过评估各个可能性，AlphaZero就能得知当前最好的棋步。

MuZero则没有这种奢华待遇：它需要摸索出棋盘上各个子的合法（legal）走法，还需要弄清输赢的概念；当然，它的目标与AlphaZero一样，赢就好了，越多越好。但在不清楚规则的情况下，MuZero需要另辟蹊径，利用表征网络（representation network），将观察到的棋盘状态转换成只属于自己的隐藏状态（hidden state）。我们将当前的棋盘状态称为O（observation，即观察），MuZero的当前隐藏状态称为。但这时，MuZero遇到了第二个大难题：如何像AlphaZero一样评估未来的各种可能性呢？

不像AlphaZero，不知道棋盘规则的MuZero不能预测棋盘的各种可能状态，因此，MuZero需要从零开始，创造自己对棋路的内部模型。幸运的是，有了隐藏状态之后，MuZero就能算出状态下可以做出的各种行动（经过学习，MuZero得出的可能行动会越来越符合规则），并能通过动态网络（dynamic network），利用MuZero选择的行动和当前潜在状态，推演出。在每一个真实世界的时间点内，MuZero都能利用自己的内部模型和MCTS选择出这一个时间点的最佳行为，并将其应用于真实世界中。在实际做出了一个最佳行为后，这个行为又能再回收，用于训练动态网络（从而改进MuZero的内部模型）。

AlphaZero和MuZero MCTS方法的并列对比。熟知规则的AlphaZero能由一个真实状态和可能行为，推测下一个真实状态。而MuZero由于不知道游戏规则，只能将真实状态表征为隐藏状态，学会建立自己的内在模型。制图：罗丁豪

互联网小常识：FTP服务使用C/S工作方式。在进行文件传送时，FTP客户机和服务器之间建立两个连接控制连接和数据连接。

也就是说，由于AlphaZero对规则的掌握，它只需要一个预测网络就能精通棋类。而不能预先知晓规则的MuZero，则需要利用动态网络和表征网络，自己学习并建立一个内在模型，从而学会下棋。在建立内在模型的过程中，人类不会给MuZero设置任何限制：MuZero可以舍弃任何信息，只保留有用的元素（即价值、策略和奖励）。

相比于只需要1个神经网络的AlphaZero，MuZero需要3个神经网络来建立内部模型，从而指导精确规划。制图：罗丁豪

与人类一样，MuZero可以在它的脑海中创造任何规则和动态。它的目标是做出最精确、最有效的未来规划。舍弃了"循规蹈矩"的MuZero反而因此获得了极强的可塑性，在截然不同的棋类和电脑游戏中都"得心应手"。

"超人"表现？

就这样，MuZero这样一个无师自通的算法，竟然在AlphaZero引以为傲的棋类游戏中轻松与后者打成了平手。

在国际象棋、将棋和围棋中，MuZero的表现（蓝线）达到甚至超过了AlphaZero（橙线）。而在雅达利游戏吃豆人小姐中，MuZero的表现（蓝线）远超此前表现最佳的R2D2算法得分（橙线）。图片来源：Schrittwieser et al.,Nature，翻译制图：罗丁豪

在国际象棋、将棋和围棋中，MuZero都能达到AlphaZero的水平，甚至在围棋中稍稍胜过了AlphaZero。这表明MuZero自学成才建立的内部模型，或许比AlphaZero的循规蹈矩更接近围棋的要义。在雅达利游戏中，MuZero的表现也非同寻常。以吃豆人小姐（Ms. Pac-Man）为例，MuZero的得分为243401.10，相比之下，人类的最高分只有6951.60，是MuZero的1/35。在57个测试用的雅达利游戏中，MuZero在37个中取得了历史最高分，而人类则仅在5个游戏中保持着最佳成绩。

但是，在利用AlphaZero和其他算法攻破了这些游戏后，反而对MuZero隐藏起规则，让它闭上眼下棋、背着手玩游戏的目的是什么呢？

正如本文开头所说，DeepMind和整个AI领域一样，并不在乎国际象棋和雅达利游戏本身。这是一场事关智能的征途，目标是理解智能本身。牙牙学语的婴儿并不明白动名词的区别，却能在短短几个月内连词成句，甚至创造出只属于他们的句子。生物学家也并非生来就知晓细胞的各种秘密，而是在实验和失败中，一步步对生物世界建立了理论和模型，从而获得深刻洞见。

事实很残酷：循规蹈矩不是智能。事先熟知规则再精通下棋，与先摸索规则、建立内部模型再精通棋路是全然不同的。前者只能困于棋中，后者则能将一套思考方式搬到各种任务上。前者的例子包括AlphaGo到AlphaZero的各种棋类AI，后者则包括MuZero和于尔根·施密德胡波（Jürgen Schmidhuber）著名的循环世界模型（Recurrent World Model）。

为外界建立内部表征是人类最引以为傲的能力之一。如今在AI身上，这个能力再次证明了自己的价值。MuZero不仅让人类看到了创造人工通用智能的可能性，还为我们打开了一扇通往智能本身的大门：

智能究竟是什么？我们离答案似乎越来越近。

（撰文 | 罗丁豪）

互联网小常识：IEEE802.11定义了两种类型的设备，无线结点和无线接入点，工作在2.4GHZ的ISM波段内。速度为1Mbps，2Mbps。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186

Lily and people like this Comments

人工智能在游戏(人工智能在游戏中的应用论文)

Mark wiens

人工智能在游戏(游戏人工智能)

相关信息

暗器之神降临《新斗罗大陆》揭秘新SS魂师..

暗器之神降临《新斗罗大陆》揭秘新SS魂师..

前LCK主持人赵恩静和苏志燮今日登记结婚网..

这款腾讯应用时隔一年“诈尸”更新，原因可能..