AlphaGo Zero三天击败旧版本比战胜柯洁还厉害的AlphaGo来了

2017-10-19 14:18:00 来源: 凤凰

AlphaGo Zero的强化学习

上面提到AlphaGo使用了一个神经网络，这是怎么做到的?

DeepMind使用了一个新的神经网络fθ，θ是参数。这个神经网络将原始棋盘表征s(落子位置和过程)作为输入，输出落子概率(p, v)= fθ(s)。这里的落子概率向量p表示下一步的概率，而v是一个标量估值，衡量当前落子位置s获胜的概率。

这个神经网络把之前AlphaGo所使用的策略网络和价值网络，整合成一个单独的架构。其中包含很多基于卷积神经网络的残差模块。

AlphaGo Zero的神经网络，使用新的强化学习算法，自我对弈进行训练。在每个落子位置s，神经网络fθ指导进行MCTS(蒙特卡洛树)搜索。MCTS搜索给出每一步的落子概率π。通常这种方式会选出更有效的落子方式。

因此，MCTS可以被看作是一个强大的策略提升operator。这个系统通过搜索进行自我对弈，使用增强的MCTS策略决定如何落子，然后把获胜z作为价值样本。

这个强化学习算法的主要理念，实在策略迭代过程中，反复使用这些这些搜索operator：神经网络的参数不断更新，让落子概率和价值(P,v)=fθ(s)越来越接近改善后的搜索概率和自我对弈赢家(π, z)。这些新参数也被用于下一次的自我对弈迭代，让搜索变得更强大。整个过程如下图所示。

上图解释了AlphaGo Zero中的自我对弈强化学习。图a展示了程序的自我对弈过程。程序在从s1到st的棋局中进行自我对弈，在任意位置st，程序会用最新的神经网络fθ来执行MCTS αθ，根据MCTS计算出的搜索概率at∼πt选择落子位置，根据游戏规则来决定最终位置sT，并计算出胜者z。

图b展示了AlphaGo Zero中的神经网络训练过程，神经网络以棋盘位置st为输入，将它和参数θ通过多层CNN传递，输出向量Pt和张量值vt，Pt表示几步之后可能的局面，vt表示st位置上当前玩家的胜率。为了将Pt和搜索概率πt的相似度最大化，并最小化vt和游戏实际胜者z之间的误差，神经网络的参数θ会不断更新，更新后的参数会用到如图a所示的下一次自我对弈迭代中。

AlpaGo Zero中的MCTS结构如上图所示，从图a显示的选择步骤可以看出，每次模拟都会通过选择最大行为价值Q的边缘，加上置信区间上限U来遍历树，U取决于存储先验概率P和访问次数N。

图b显示，叶节点扩展和相关位置s的评估都是通过神经网络(P(s, ·)，V(s)) = fθ(s)实现的，P的向量值存储在s的出口边缘。

《李茂扮太子》

《小虎墩大英雄

《风起洛阳》刘

宋茜《风起洛阳

《扑通扑通的水

陈依琪《输赢》

AlphaGo Zero三天击败旧版本 比战胜柯洁还厉害的AlphaGo来了

相关推荐

《李茂扮太子》预售过千万 马丽常远与你“美丽常伴”

《向着明亮那方》扎根中国故事 超越年龄限制的“童年宝藏”

苗侨伟《飞虎3》再演“阿sir” 期待有突破自己的机会

《东北虎》官宣定档 映照生活中的荒诞与无奈

女心理师小文扮演者是谁 汤梦佳演技怎么样

阴阳师云冥界哪里多 夏之泡影任务答案触发方法介绍

福原爱女儿嫩照曝光宝宝叫什么名字 江宏杰笑称发量最像自己

崔雪莉开直播自曝只穿内裤?与郑秀晶不和撕逼事件怎么回事

唐嫣罗晋已分手原因是什么?同拍一场戏互动甚少是吵架了吗

46岁董卿现身会议显疲惫！腰椎疼痛走路缓慢，头发凌乱衬衫褶皱多

接连离巢！TVB新闻首席主播悄然离巢，结束6年新闻主播生涯

51岁咏梅罕晒近况！穿着朴素扎俏皮丸子头，发际线高额角秃一块

好莱坞72岁女星新作赤身出镜遭小李子反对，导演：最后用了替身

巨石再次确认不回归《速激10》，叫板范老大：别再消费保罗·沃克

年度终极盘点！2021年近70位明星翻车：8人违法乱纪，4人隐婚隐育

66岁陈道明给青年演员讲话！称干这行少染毛病，一众大牌立正鞠躬

去陌生人家里拍摄是一种什么样的体验？这部日综太暖了！

张庭、林瑞阳人生中的3次“暗度陈仓”

赵丽颖晒照优雅迷人似少女，认真研读剧本受期待，力破发福传闻

张小斐张译荣获金鸡奖影后影帝，于和伟张子枫落选，刘浩存陪跑

当年的人们为什么沉迷“小品”

前瞻｜14台“跨晚”火拼！台网平台年度终极一战，谁能跨出新气象？

演员孙俪：大女主光环之外的世界丨抉择2021

涂松岩谈起儿子激动落泪！41岁得子把他宠上天，连保姆都不想请

跨年晚会超十档，央卫视进行大比拼

15岁黄多多染发后首晒自拍！穿白衬衫涂大红唇，眼神犀利变化太大

朱媛媛获金鸡奖最佳女配！贫嘴张大民的媳妇，在事业巅峰曾拒演潜伏

成为蜘蛛侠意味着什么？《蜘蛛侠：英雄无归》核心探讨

王牌部队：9年前的娘娘腔，如今变硬汉团长，肖战“与狼共舞”了

74岁施瓦辛格和妻子完成离婚！25年婚姻正式完结，离婚用了10年

8.3分爆火，它拍出了聪明女人恋爱该有的样子

37岁男星自曝移居国外！已跟妻子及宠物在日本隔离，强调不是移民

王宝强与张子枫吃饭，对她超宠溺，弟弟去世成他一生遗憾

刘雪华人生太难了，被刘德凯辜负丈夫坠楼身亡，如今独居不愿出门

金星发文质问江苏卫视！镜头海报都被剪，11月就有人爆料没法播

当年齐名刘德华前程似锦，却花样作死自断星途，如今活成笑话还想翻红？

孙红雷悼念恩师梁伯龙，此前还亲去探病，后者曾培养出巩俐陈宝国

千万网红白冰惹争议！用公共食材进餐，商家未更换继续使用

张庭夫妇的明星朋友圈

拍照不离场，镜头前摔跤，模仿名人翻车，明星红毯抢戏“心机”多

知名男星吃蘑菇被紧急送医，曾因 成功 追星杨幂笑到下巴脱臼

又有一档宝藏综艺上线，全网四五星好评！网友评价：一看就上头

李到晛、高旻示三搭！《五月的青春》的悲剧能否改写？

正面刚！金星开撕江苏卫视，怒斥节目组把她P掉，连接出事疑遭封杀

《误杀2》，满身盔甲，目光狰狞，只不过是要保护那个想保护的人

巩俐恩师梁伯龙举办告别仪式，夏雨等学生送花圈，外甥女发文悼念

退休养老？赵本山卸任辽宁民间艺术团有限公司法人、董事长等职务

子瑜美貌引热议，令韩网疯狂；刘在石再获大赏，共计18次！

送女儿出国留学被骂！女星礼貌回应网友，承诺孩子将来会回馈祖国

小品王高秀敏墓：雕像是谢幕专用动作，碑上仅有出生年份意义特殊

著名演员王子文：14岁辍学，29岁走红，未婚生子，生父成谜

两拒天王，事业巅峰时因病退隐，做护士的李绮红现在怎么样了？

老戏骨高雄被曝私下爱骂不敬业演员，从来都有话直说，不怕得罪人

网友喊话林俊杰冷暴力！曾被初恋误会没钱，追田馥甄却和金莎暧昧

黄磊和刘若英有了“第四种感情”后，孙莉毫不介意？

林瑞阳前妻发文庆祝女儿生日，网友齐齐刷屏：大仇得报

“国民妹妹”00后张子枫，获金鸡奖提名，她的星途让人刮目相看

《李茂扮太子》预售过千万 马丽常远与你“美丽常伴”

《李茂扮太子》预售过千万 马丽常远与你“美丽常伴”

《小虎墩大英雄》曝角色海报 与超萌虎娃齐闹新春

《小虎墩大英雄》曝角色海报 与超萌虎娃齐闹新春

《风起洛阳》刘梦珂精彩演绎“圣人首席大助”焕相boss

宋茜《风起洛阳》会员收官 BE结局赚足观众眼泪

宋茜《风起洛阳》会员收官 BE结局赚足观众眼泪

《扑通扑通的水球少年》开机 王皓轩演绎天才少年白浪

《扑通扑通的水球少年》开机 王皓轩演绎天才少年白浪

陈依琪《输赢》高情商卖鞋 神操作攻破辛芷蕾

陈依琪《输赢》高情商卖鞋 神操作攻破辛芷蕾

《向着明亮那方》扎根中国故事 超越年龄限制的“童年宝藏”

《爱情神话》十大彩蛋首度揭秘 塑造人间烟火

《爱情神话》十大彩蛋首度揭秘 塑造人间烟火

《风起洛阳》结局大快人心？实则有3大漏洞，留下3大未解谜团

从兄妹相称到夫妻，结婚后仅维持两年，玖月奇迹离婚早就有预兆了

唱得少钱却平分，被调侃赚钱最容易的男歌手，曾毅到底会不会唱歌

王大陆蔡卓宜复合了？两人街头牵手散步，将女友搂入怀中难掩甜蜜

今年的日影十佳，得有它的名字

神剧就是神剧，一回归又是9.8分

《人世间》亮相 雷佳音辛柏青宋佳演绎百姓奋斗史

AlphaGo Zero三天击败旧版本比战胜柯洁还厉害的AlphaGo来了

《李茂扮太子》预售过千万马丽常远与你“美丽常伴”

《向着明亮那方》扎根中国故事超越年龄限制的“童年宝藏”

《东北虎》官宣定档映照生活中的荒诞与无奈

女心理师小文扮演者是谁汤梦佳演技怎么样

阴阳师云冥界哪里多夏之泡影任务答案触发方法介绍

福原爱女儿嫩照曝光宝宝叫什么名字江宏杰笑称发量最像自己

知名男星吃蘑菇被紧急送医，曾因成功追星杨幂笑到下巴脱臼

《李茂扮太子》预售过千万马丽常远与你“美丽常伴”

《李茂扮太子》预售过千万马丽常远与你“美丽常伴”

《小虎墩大英雄》曝角色海报与超萌虎娃齐闹新春

《小虎墩大英雄》曝角色海报与超萌虎娃齐闹新春

《扑通扑通的水球少年》开机王皓轩演绎天才少年白浪

《扑通扑通的水球少年》开机王皓轩演绎天才少年白浪

陈依琪《输赢》高情商卖鞋神操作攻破辛芷蕾

陈依琪《输赢》高情商卖鞋神操作攻破辛芷蕾

《向着明亮那方》扎根中国故事超越年龄限制的“童年宝藏”

《爱情神话》十大彩蛋首度揭秘塑造人间烟火

《爱情神话》十大彩蛋首度揭秘塑造人间烟火

《人世间》亮相雷佳音辛柏青宋佳演绎百姓奋斗史

《汪汪队立大功大电影》角色海报曝光期待贝贝表现

热依扎短发造型曝光旗袍显清丽古典美

热依扎短发造型曝光旗袍显清丽古典美

关晓彤大片来袭黑色亮片裙性感美丽

关晓彤大片来袭黑色亮片裙性感美丽

《东北虎》定档章宇马丽中年夫妻遭遇婚姻危机

《东北虎》定档章宇马丽中年夫妻遭遇婚姻危机

王嘉尔开年封嘎嘎野得性感又纯粹

王嘉尔开年封嘎嘎野得性感又纯粹

《断·桥》官宣端午档马思纯、王俊凯、范伟主演

《断·桥》官宣端午档马思纯、王俊凯、范伟主演

《狙击手》张译三度合作张艺谋大年初一上映

《狙击手》张译三度合作张艺谋大年初一上映

《李茂扮太子》北京首映马丽常远魔性走位舞嗨翻全场

《李茂扮太子》北京首映马丽常远魔性走位舞嗨翻全场

《东北虎》官宣定档映照生活中的荒诞与无奈

杨幂陈伟霆《斛珠夫人》格局“添彩”融大义国风增色

杨幂陈伟霆《斛珠夫人》格局“添彩”融大义国风增色

《输赢》：对手变爱人情感陷入传统套路

梁靖琪挺大孕肚与老公为儿子庆生佘诗曼汤盈盈等七魔女齐聚参加

TVB男艺人林子善携妻为女儿庆祝2岁生日一家三口去游乐场游玩庆祝

《蜘蛛侠：英雄无归》全球票房超74亿打破索尼影业最高纪录

《蜘蛛侠：英雄无归》4K蓝光碟封面公开发售日待定！