尤其是当涉及到队友之间的协调时,第一人称视频游戏的复杂程度是呈指数级的增长的。DeepMind的代理人通过大约45万轮游戏来学习如何夺得旗帜,在数周的训练中便积累了需要大约4年的游戏经验。起初,代理人惨遭失败。但通过学习突袭对手大本营时应该如何追随队友,他们逐渐了解到了这个游戏的精髓。
在完成这个项目以后,DeepMind的研究人员还设计了一个可以击败星际争霸II专业玩家的系统。在OpenAI实验室,研究人员构建了一个掌握Dota 2的系统,Dota 2这个游戏就像夺得旗帜的加强版本。今年四月,由五名代理人组成的团队击败了由五名世界上最优秀的人类玩家组成的玩家团队。
去年,人称Blitz的专业Dota 2玩家兼评论员William Lee与代理人进行过一对一比赛,当时的版本不允许团队战;在当时,William对此表示兴趣平平。但是当代理人继续学习比赛并且参加团队战时,他对代理人的技巧感到震惊。
他说:“我曾经以为机器不可能打五对五的,更不用说赢了。我绝对被征服了。”
这种技术在游戏中的应用令人印象深刻,但许多人工智能专家质疑它是否最终能转化为解决现实问题。专注于人工智能的乔治亚理工学院计算机教授Mark Riedl质疑到:DeepMind的代理人事实上并没有真正在合作。他们只是回应游戏中发生的事情,而不是像人类玩家那样互相交换信息。(甚至渺小如蚂蚁也可以通过交换化学信号进行协作。)
虽然结果看起来像是协作,但这是因为代理人作为个体本身是可以完全理解游戏中发生的事情。
负责该项目的另一位DeepMind研究员Max Jaderberg则表示:“如何定义团队合作并不是我想要解决的问题。但是一名代理人在对手的大本营坐等旗子出现这种情况,只有在依靠队友时才有可能出现。”
像这样的游戏并不像现实世界那么复杂。Riedl博士说到:“3D环境旨在使导航变得容易。Quake的战略与协调很简单。”
强化学习非常适合这类游戏。在视频游戏中,很容易识别成功的指标:获得更多的得分。但在现实世界中,没有人能保持得分。研究人员必须以其他方式定义成功。
这一点是可以实现的,至少在简单的任务中。OpenAI的研究人员训练了一个机器人手像孩子一样来操纵字母块——告诉它给你看字母A,它就会拿字母A给你看。
在谷歌机器人实验室,研究人员已经证明机器可以学习拾取随机物品,例如乒乓球、塑料香蕉,并将它们扔到几英尺外的垃圾箱里。这种技术或许在将来可以应用到亚马逊、联邦快递和其他公司运营的大型仓库和配送中心。目前,这些工作还是由人类工作者来完成的。
如DeepMind和OpenAI这样的实验室要想解决更大的问题,他们可能开始需要大量的计算能力。因为OpenAI的系统在几个月内通过完成需要多年时间才能完成的45万多轮游戏学会了玩Dota,这依赖于成千上万的计算机芯片。Brockman表示光买这些芯片就让实验室花费了数百万美元。
卡内基梅隆大学研究员Devendra Chaplot表示,由各种硅谷大拿,其中包括Khosla Ventures和科技亿万富翁Reid Hoffman在内资助的DeepMind和OpenAI可以负担得起这些计算能力。但是,学术实验室和其他小型企业不能。对某些人来说,他们担心的是那些资金充足的实验室将主宰人工智能的未来。
但即使是大型实验室也可能没有将这些技术转移到现实世界的复杂性所需的计算能力,因为这可能需要更厉害的人工智能形式——人工智能需要学得更快。虽然机器现在可以在虚拟世界中赢得夺旗游戏,但让他们在夏令营中开放的场地上赢得游戏仍然无望,并且这将持续相当长一段时间。