何谓强化学习技术?
到底什么是强化学习技术呢?简单地说,强化学习就是让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法与神经网络算法。
在这两种算法中,神经网络算法可根据当前棋面形势给出落子方案,以及预测当前形势下哪一方的赢面较大;蒙特卡洛树搜索算法则可以看成是一个对于当前落子步法的评价和改进工具,它能够模拟出AlphaGo Zero将棋子落在哪些地方可以获得更高的胜率。
AlphaGo Zero的自我强化学习,图片源自Nature
假如AlphaGo Zero的神经网络算法计算出的落子方案与蒙特卡洛树搜索算法输出的结果越接近,则胜率越大,即回报越高。因此,每落一颗子,AlphaGo Zero都要优化神经网络算法中的参数,使其计算出的落子方案更接近蒙特卡洛树搜索算法的结果,同时尽量减少胜者预测的偏差。
刚开始,AlphaGo Zero的神经网络完全不懂围棋,只能盲目落子。但经历无数盘自我对弈后,AlphaGo Zero终于从围棋菜鸟成长为了一代棋神。
AI虽强,但超越人类可没那么容易
我们可以看到,ALphaGo Zero与它的前任相比,技术上实现了质的飞跃。DeepMind团队也表示,希望通过培养AI自主学习的能力,来解决更多其他领域目前无法解决的棘手问题。但是仍有很多人对于AlphaGo Zero的这种进化表示了深切的担忧。
美国加州伯克利大学博士@Ent_evo就专门针对ALphaGo Zero发表了一篇博文,在文中评论道:这对人类来说是个很大的打击。当年AlphaGo至少还学习了大量的人类经验,但是AlphaGo Zero根本就不需要人类棋手这么多年的积累,人类经验是好是坏,对AI而言完全无关,这是所有AI末世中最令人恐惧的一个场景。
这不禁让人想起着名物理学家斯蒂芬?霍金在2017全球移动互联网大会(GMIC)发表的演讲。他表示,人工智能的崛起很有可能终结人类文明。
但是也有不少业内人士对此表示不用担心。新松机器人总裁曲道奎在接受媒体采访时表示,Zero的分量被夸大了,这次突破只能算人工智能在围棋领域的胜利,但要完成超越人类其他行业的水平却为时尚早。就技术层面而言,Zero解决了围棋问题,但更多的问题比如自然语言理解、图像理解、推理等问题仍然存在。
在笔者看来,ALphaGo Zero的诞生带来了许多积极意义。它从零开始,证明了“算法优先于数据”这条长期以来一直争论的观点;它能够摆脱对人类的依赖,不需要人类给出样本数据,这为广泛的行业应用提供了更多可能。
虽然人工智能如此强大,但是“人类多余”的言论还是说的过于严重了。即使ALphaGo Zero是通过自我学习进行成长,但是它依然没有属于自己的思维能力。归根结底,AI也只不过是由人类为了某些需求而用技术加持的一个工具罢了。这个工具虽然强大,但超越人类可没那么容易。