音乐

AlphaGo Zero三天击败旧版本 比战胜柯洁还厉害的AlphaGo来了

2017-10-19 14:18:00 来源: 凤凰

图c显示了更新行为价值Q以追踪该行为下面子树中所有评估V的平均值。

图d显示,搜索完成后,搜索概率π返回,与N1/τ成比例,其中N是从根状态每次移动的访问次数,τ是控制温度的参数。

从零开始的训练

DeepMind在论文中表示,应用了强化学习的pipeline来训练AlphaGo Zero,训练从完全随机的行为开始,并在没有认为干预的情况下持续3天。

训练过程中,生成了490万盘自我博弈对局,每个MCTS使用1600次模拟,相当于每下一步思考0.4秒。下图显示了在自我对弈强化学习期间,AlphaGo Zero的表现。整个训练过程中,没有出现震荡或者灾难性遗忘的困扰。

令人惊讶的是,AlphaGo Zero在训练36小时后,表现就优于击败李世乭的版本AlphaGo Lee。当年那个版本经过了数月的训练。AlphaGo Zero使用了4个TPU,而击败李世乭的AlphaGo使用了48个TPU。

下图就是AlphaGo Zero和AlphaGo Lee的神经网络架构比较。

论文全文

论文的共同第一作者是David Silver、Julian Schrittwieser、Karen Simonyan。

关于这篇论文,可以直接从这个地址下载:

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

DeepMind还放出AlphaGo Zero的80局棋谱,下载地址在此:

https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip

相关推荐