音乐

AlphaGo Zero三天击败旧版本 比战胜柯洁还厉害的AlphaGo来了

2017-10-19 14:18:00 来源: 凤凰

以前其他版本的AlphaGo,都经过人类知识的训练,它们被告知人类高手如何下棋。而最新发布的AlphaGo Zero使用了更多原理和算法,从0开始,使用随机招式,40天后成为围棋界的绝世高手。真真正正的自学成才。

新的AlphaGo Zero使用了一种全新的强化学习方式,从0基础的神经网络开始,与搜索算法结合,不断进化调整、迭代升级。AlphaGo Zero的不同之处在于:

除了黑白棋子,没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工设计的特征。

AlphaGo Zero只用了一个神经网络,而不是两个。以前AlphaGo是由“策略网络”和“价值网络”来共同确定如何落子。

AlphaGo Zero依赖神经网络来评估落子位置,而不使用rollouts——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方会获胜。

创新工场AI工程院副院长王咏刚用“大道至简”四个字评价新版的AlphaGo Zero。

上述种种,让AlphaGo Zero异常强大。

“人们一般认为机器学习就是关于大数据和海量计算,但是DeepMind通过AlphaGo Zero的案例发现,算法比计算或者数据可用性更重要”,AlphaGo团队负责人席尔瓦(Dave Silver)介绍说,AlphaGo Zero的计算,比之前的AlphaGo减少了一个数量级。

如上图所示,AlphaGo Zero也只用了4个TPU。

AlphaGo Zero到底多厉害,且看官方公布的成绩单:

3小时后,AlphaGo Zero成功入门围棋。

仅仅36小时后,AlphaGo Zero就摸索出所有基本而且重要的围棋知识,以100:0的战绩,碾压了当年击败李世乭的AlphaGo v18版本。

相关推荐