今年五月份举行的乌镇围棋峰会上,AlphaGo击败柯洁之后可以说在围棋界里已是“独孤求败”的境界了,几乎无人是其对手。人们在赞赏的同时,也想看到是否会出现一个对手,能够将ALphaGo拉下马。
事实就是这样,越想着什么越会发生什么。ALphaGo终于遇到了自己的对手,这个对手甚至以摧枯拉朽之势击败了ALphaGo。
就在上周,据外媒报道,英国DeepMind团队在《自然》杂志上发表了相关论文,介绍了新一代的围棋AI:ALphaGo Zero。使用了强化学习技术的ALphaGo Zero可以通过自我对弈进行训练,棋力大幅度增长,轻轻松松击败了曾经不可一世的ALphaGo。人们再次被震惊了,就连柯洁都发出了“人类多余”的感叹。
图片源自微博
ALphaGo Zero到底是何方神圣?
可能有的人认为,这没有什么特别的。ALphaGo Zero是ALphaGo的强化版,比ALphaGo经历了更多的数据演练,打败ALphaGo很正常。然而事实并不是这么简单。
在过去,AlphaGo都是使用专业人类棋手的对局数据来进行训练,可以说是人类棋手的指导下,让它一步步的成长起来。而ALphaGo Zero完全不同,它采用了强化学习技术,从随机对局开始,不依靠任何人类专家的对局数据或者人工监管,而是让其通过自我对弈来提升棋艺。
据了解,ALphaGo Zero经过3天的训练,就已经可以击败AlphaGo Lee(去年击败韩国顶尖棋手李世石的系统),比分为100比0。经历40天训练后,它总计运行了大约2900万次自我对弈,又击败AlphaGo Master(今年击败世界冠军柯洁的系统),且比分为89比11。要是说ALphaGo对阵人类只是略胜一筹,那对阵ALphaGoZero简直就是被碾压的局面。
DeepMind团队表示,ALphaGo Zero之所以那么强,原因在于它采取的强化学习技术。他们发现AlphaGo Zero自我对弈仅几十天,就掌握了人类几百年来来研究出来的围棋技术。由于整个对弈过程没有采用人类的数据,因此ALphaGo Zero的棋路独特,不再拘泥于人类现有的围棋理论。