模拟现实场景专家喜欢用游戏训练 AI

《经济学人》日前撰文称，人工智能专家之所以喜欢用视频游戏来训练算法，是因为它可以模拟现实生活中的各种场景，降低训练成本，而且可以帮助他们更好地理解人工智能甚至自然智能的底层原理。

以下为编译整理的原文内容：

去年，普林斯顿大学计算机学家阿瑟·菲力珀维茨(Artur Filipowicz)在处理停止标志时碰到了一个问题。菲力珀维茨博士当时正在教汽车如何识别和解读周围的世界，使之可以在没有人类帮助的情况下自动驾驶。

要实现这一目标，就必须能够识别停止标志。所以，他希望训练一套合适的算法。这种训练需要向算法(或者运行算法的电脑)展示许多停止标志的图片，而且要涵盖多种不同的环境：新标志、旧标志;干净的标志、弄脏的标志;被卡车或建筑物部分遮挡的标志;阳光明媚、阴雨绵绵、雾气蒙蒙的环境里的标志;白天、傍晚和夜间的标志。

要从图库中获取所有图片并非易事，而要亲自跑出去逐一拍摄更是非常困难。于是，菲力珀维茨决定向《侠盗猎车手5》求助——这是该系列游戏的最新力作。

由于真实地刻画了犯罪和暴力行为，使得《侠盗猎车手5》成为了一款颇具争议的作品——但在菲力珀维茨看来，这却是个理想的训练场，因为里面也包含很多真实的停止标志。通过对这款游戏软件进行调整，他得以从中分离出成千上万的停止标志图片，而且涵盖各种各样的环境，使得他开发的算法可以充分吸收这些信息。

像菲力珀维茨这样的例子并不少见，很多人工智能专业的学生都对视频游戏颇为钟爱。之所以出现这种情况，有很多原因。菲力珀维茨这样的人把游戏当成现实世界的预备训练场。还有的人则是看中了不同的游戏所需的不同认知技能，因而认为游戏可以帮助他们理解如何把智能问题分解成一个个易于掌控的模块。但也有一些人融合了这两种模式，认为游戏可以帮助他们开发适当的人工智能理论，甚至可以用来解释自然智能。

模拟现实

但要实现这些目标，首先要对游戏进行调整，才能直接让其他电脑程序直接运行，而不是同时让人关注屏幕上的各种动作。例如，通过在其中植入一个名为“Deep Drive”的软件，便可将《侠盗猎车手5》从一个采集道路标志的图片库，变成无人驾驶汽车模拟器。

这样一来，便可让这些汽车的驾驶和导航系统获得控制权——与直接上路测试相比，这种测试方式成本更低，也更为安全。

游戏公司也开始意识到这一点。例如，微软2015年6月启动了Project Malmo，这是一个以微软最近收购的热门游戏《我的世界》为基础打造的人工智能开发平台。2016年11月，作为策略游戏《星际争霸2》的开发商，动视暴雪也宣布与谷歌(微博)旗下DeepMind展开合作。

微软启动Project Malmo的目的是教给人工智能软件如何与人进行配合。为了达到这个目的，该项目负责人凯特加·霍夫曼(Katja Hofman)试图使用《我的世界》开发一个高级个人助手。她的目标是开发一款能够预测人类意图的软件，从而帮助其达成目的。

《我的世界》不像现实世界那么复杂，但其复杂程度已经足够吸引人工智能专家的注意，因而成为了一个完美的测试场。例如，霍夫曼博士和她的同事就在使用这款游戏训练电脑，使之与人类选手配合抓住虚拟猪。由于机器无法理解手写指令，所以只能通过观察人类的游戏方式来学习。

然而，视频游戏在人工智能领域的作用可不只是训练无人驾驶技术。事实上，由于不同的游戏需要不同的技能，因此研究人员便可借此加深对智能的理解。2015年，DeepMind发表了一篇论文，阐述了该公司的研究人员如何训练人工神经网络(这是一种大致模拟生物大脑的程序)运行雅达利上世纪七八十年代发布的几十款不同的游戏。

对神经网络来说，有的游戏较难掌握，有的相对容易。《Breakout》有点像单人版网球，玩起来相对容易。目标是用弹球击中漂浮的砖块。玩家可以做两件事情：向左或向右移动球拍。如果失败，就会立刻受到惩罚(丢球就会少一条命)。类似地，如果成功也会立刻得到奖励(每打中一个砖块都可以加分)。

由于规则简单，而且可以立刻获得反馈，所以很适合DeepMind的神经网络。它玩《Breakout》的水平很高，甚至达到专业人类游戏测试员的10倍。

其他游戏没有那么简单。在《Montezuma’s Revenge》游戏中，目标是找到藏在危险金字塔深处的宝藏。为了完成任务，玩家必须首先达成很多目标，例如找到钥匙打开门。这种游戏的反馈不像《Breakout》那么快——钥匙可能在一个地方，但要打开门却要跑到更远的另外一个地方。不仅如此，还需要完成数以千计的动作后才能获得最终的奖励——找到宝藏。

这就意味着神经网络很难建立因果关系。与《Breakout》的优异表现相比，人工智能在《Montezuma’s Revenge》游戏中几乎没有取得进步。

自那之后，DeepMind研究人员便调整了算法，加强系统对事物的好奇心，通过更大的奖励鼓励其展开探索和实验。这样一来，它就更有可能发现那些无法立刻显现出效果的一流策略。

这种方式不仅限于掌握虚拟世界的各种技巧，还可以应用到现实世界。例如，DeepMind的算法已经应用到谷歌的数据中心，并且成功将能耗降低了40%。事实上，完全可以将这样的任务当做游戏看待。要降低数据中心的能耗，神经网络可以对冷却液泵和和负载分布等设置进行调整，同时密切关注能源使用状况。“得分”越低，表明效果越好。

迁移学习

在现阶段，通过调整游戏程序来降低数据中心的能源预算，就像从头教给人工智能如何玩一款新游戏一样。这是因为DeepMind的原始神经网络一次只能运行一款游戏。例如，为了理解《Breakout》，它必须忘记自己掌握的《Space Invaders》游戏的内容。

这种健忘症是人工神经网络的特性——也是它区别于人类大脑的关键。这种神经网络由虚拟神经组成，它们通过系统性调整这些虚拟神经之间的连接强度进行学习。如果改变需要学习的任务，之前的连接网络就会逐渐被替换。

但现在，正如他们在今年3月发表的一篇论文中所说，DeepMind的程序员已经克服了这个问题，使得神经网络可以像人脑一样同时掌握多款游戏。这便向着“迁移学习”迈出了一步——迁移学习指的是把一种背景下学会的行为模式应用到另外一个背景中，这是当今人工智能研究领域的热门话题。

就像展示好奇心和延后奖励一样，迁移学习对人类来说毫无难度，但机器却很难掌握。于是，游戏又一次在研究中扮演了重要角色。

例如，纽约大学的朱利安·托格流斯(Julian Togelius)组织了一场名为“普通视频游戏人工智能竞赛”的挑战赛：参加者必须开发一款会玩10款不同视频游戏的程序，而且要具备一定的能力。值得一提的是，无论是程序本身还是负责开发的程序员，之前都不能接触过这些游戏。这就要求软件掌握许多技能，包括规划、探索、决策等，而且还要懂得使用这些能力来解决之前没有遇到的问题。

但即便是掌握了迁移学习能力，构建有用的人工智能仍然是一项繁琐的任务。研究人员希望掌握一套基础理论，以便能够系统性地实现这一目标。其中一种候选理论名为“体验认知”，该理论认为，不应该从一开始就给程序设计智能，而是应该完全通过体验来学习。

霍夫曼特别支持这种方法。她认为，视频游戏是探索这种想法的完美平台。之前关于体验认知的研究是在1980年代进行的，当时是在机器人身上配置传感器，让其通过四处跑动和偶然碰到各种事情来了解现实世界的运作方式。当时的研究人员在这方面的确取得了一定的成功，但在扩大试验规模时却遇到问题。

DeepMind的大卫·西尔沃(David Silver)表示：“机器人有齿轮、转轮和发动机，以及各种高精度零件，所以需要花费很多时间来维护。”

简化过程

视频游戏可以简化这一过程。虚拟世界的虚拟机器人没有重量，也没有传动部件，所以无需维护。如果要对规格进行调整，也不需要把它拆开，只需要敲击几下键盘即可完成。

环境也可以轻易调整。改变迷宫路径不再需要大动干戈，一台电脑便可同时运行数千个模拟程序，使得虚拟机器人一遍一遍地尝试任务，不断学习。这种大规模测试也让研究人员得以监督和理解学习过程。如果使用的是真正的机器，根本无法达到这种效果。

DeepMind创始人戴密斯·哈萨比斯(Demis Hassabit)认为，关键是确保虚拟机器人不能作弊。一定要让它完全根据虚拟传感器所能收集的信息来采取行动。不能在模拟场景上开后门。如果这些机器人想要适应《Montezuma’s Revenge》里的金字塔或者《侠盗猎车手》里的虚拟城市，就必须搞清楚自己所处的位置和周围的状况，而不能向电脑询问相关信息。DeepMind在教程序玩游戏时就采取了这种方法。

通过这种方法研究体验认知是对人工智能游戏方式的合理总结。这似乎也是比较恰当的一种方式。无论是狗还是人，任何一种智能生物年轻的时候都会通过玩来构建类似于“体验认知”的东西。进化过程并没有计算机作为辅助，但无论是在人工世界还是自然世界中，这种活动的出发点都是为了让“玩家”学会应对最大的游戏——那就是现实。

模拟现实场景 专家喜欢用游戏训练 AI

相关新闻