音乐

AlphaGo Zero三天击败旧版本 比战胜柯洁还厉害的AlphaGo来了

2017-10-19 14:18:00 来源: 凤凰

21天后,AlphaGo Zero达到了Master的水平。这也就是年初在网上60连胜横扫围棋界的版本。Master后来击败了柯洁。

40天后,AlphaGo Zero对战Master的胜率达到90%。也就是说,AlphaGo Zero成为寂寞无敌的最强围棋AI。

DeepMind主要作者之一的黄士杰博士总结:AlphaGo Zero完全从零开始,初始阶段甚至会填真眼自杀。AlphaGo Zero自学而成的围棋知识,例如打劫、征子、棋形、布局先下在角等等,都与人类的围棋观念一致。

“间接呼应了人类几千年依赖围棋研究的价值”,黄士杰写道。

技术细节

DeepMind的最新研究成果,已经全文发布在《自然》杂志上。这也是第二篇在《自然》杂志上发表的AlphaGo论文。

论文摘要

人工智能的长期目标是创造一个会学习的算法,能在特定领域中从一块白板开始,超越人类。最近,AlphaGo成为第一个在围棋游戏中打败世界冠军的程序。AlphaGo中的树搜索使用深度神经网络来评估位置、选择落子。这些神经网络用人类专家的棋谱来进行监督学习的训练,并通过自我对弈来进行强化学习。本文介绍了一种仅基于强化学习的方法,除了游戏规则之外,没有人类的数据、指导或者领域知识。AlphaGo成了它自己的老师:一个被训练来预测AlphaGo自己落子选择以及对弈结果的神经网络。这个神经网络提高了树搜索的强度,提高了落子质量、增强了自我对弈迭代的能力。从一块白板开始,我们的新程序AlphaGo Zero的表现超越了人类,并以100-10击败了以前曾打败世界冠军的AlphaGo版本。

相关推荐