应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

AlphaGo为什么这么厉害AlphaGo系统主要组成部分有

  AlphaGo为什么这么厉害?最近AlphaGo的世纪大战引发关注,前三场比赛均战胜李世石,那么AlphaGo究竟厉害在哪里?内容来自Facebook人工智能研究员田渊栋,曾就职于GoogleX部门,本文是其在人机大战赛前发于知乎上的分析。
  最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。
  AlphaGo这个系统主要由几个部分组成:
  走棋网络(PolicyNetwork),给定当前局面,预测采样下一步的走棋。
  快速走子(Fastrollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。
  估值网络(ValueNetwork),给定当前局面,估计是白胜还是黑胜。
  蒙特卡罗树搜索(MonteCarloTreeSearch,MCTS),把以上这三个部分连起来,形成一个完整的系统。
  我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略(defaultpolicy)部分替代了2的功能。以下介绍下各部分。
  1、走棋网络
  走棋网络把当前局面作为输入,预测采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。
  DarkForest在这部分有创新,通过在训练时预测三步而非一步,提高了策略输出的质量,和他们在使用增强学习进行自我对局后得到的走棋网络(RLnetwork)的效果相当。当然,他们并没有在最后的系统中使用增强学习后的网络,而是用了直接通过训练学习到的网络(SLnetwork),理由是RLnetwork输出的走棋缺乏变化,对搜索不利。
  有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。
  所谓的0。1秒走一步,就是纯粹用这样的网络,下出有最高置信度的合法着法。这种做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了ldquo;棋感rdquo;一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平,让所有人都惊叹了下。
  可以说,这一波围棋AI的突破,主要得益于走棋网络的突破。这个在以前是不可想像的,以前用的是基于规则,或者基于局部形状再加上简单线性分类器训练的走子生成法,需要慢慢调参数年,才有进步。
  当然,只用走棋网络问题也很多,就我们在DarkForest上看到的来说,会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错,等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能,只是凭ldquo;直觉rdquo;在下棋,只有在加了搜索之后,电脑才有价值判断的能力。
  2、快速走子
  那有了走棋网络,为什么还要做快速走子呢?有两个原因,首先走棋网络的运行速度是比较慢的,AlphaGo说是3毫秒,我们这里也差不多,而快速走子能做到几微秒级别,差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的,等到网络返回更好的着法后,再更新对应的着法信息。
  其次,快速走子可以用来评估盘面。由于天文数字般的可能局面数,围棋的搜索是毫无希望走到底的,搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候,不像国象可以通过算棋子的分数来对盘面做比较精确的估值,围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计。
  这里有个需要权衡的地方:在同等时间下,模拟走子的质量高,单次估值精度高但走子速度慢;模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。所以说,如果有一个质量高又速度快的走子策略,那对于棋力的提高是非常有帮助的。
  为了达到这个目标,神经网络的模型就显得太慢,还是要用传统的局部特征匹配(localpatternmatching)加线性回归(logisticregression)的方法,这办法虽然不新但非常好使,几乎所有的广告推荐,竞价排名,新闻排序,都是用的它。
  与更为传统的基于规则的方案相比,它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24。2的走子准确率。24。2的意思是说它的最好预测和围棋高手的下子有0。242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57的准确率。这里,我们就看到了走子速度和精度的权衡。
  和训练深度学习模型不同,快速走子用到了局部特征匹配,自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见ExtendedTable4),而没有说明特征的具体细节。我最近也实验了他们的办法,达到了25。1的准确率和45微秒的走子速度,然而全系统整合下来并没有复现他们的水平。
  我感觉上24。2并不能完全概括他们快速走子的棋力,因为只要走错关键的一步,局面判断就完全错误了;而图2(b)更能体现他们快速走子对盘面形势估计的精确度,要能达到他们图2(b)这样的水准,比简单地匹配24。2要做更多的工作,而他们并未在文章中强调这一点。
  在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到了3d的水平(见ExtendedTable7倒数第二行),这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。在AlphaGo之前,AjaHuang曾经自己写过非常不错的围棋程序,在这方面相信是有很多的积累的。
  3、估值网络
  AlphaGo的估值网络可以说是锦上添花的部分,从Fig2(b)和ExtendedTable7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d8d的水平。少了估值网络,等级分少了480分,但是少了走棋网络,等级分就会少掉800至1000分。特别有意思的是,如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),只有将两个合起来才有更大的提高。
  我的猜测是,估值网络和快速走子对盘面估计是互补的,在棋局一开始时,大家下得比较和气,估值网络会比较重要;但在有复杂的死活或是对杀时,通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局),我猜测它是最晚做出来并且最有可能能进一步提高的。
  关于估值网络训练数据的生成,值得注意的是文章中的附录小字部分。与走棋网络不同,每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。对于每局自我对局,取样本是很有讲究的,先用SLnetwork保证走棋的多样性,然后随机走子,取盘面,然后用更精确的RLnetwork走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少,我不好说。
  一个让我吃惊的地方是,他们完全没有做任何局部死活对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。
  另外,我猜测他们在取训练样本时,判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则,不然如果换成别的规则,就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则,我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。
  4、蒙特卡罗树搜索
  这部分基本用的是传统方法,没有太多可以评论的,他们用的是带先验的UCT,即先考虑DCNN认为比较好的着法,然后等到每个着法探索次数多了,选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多,当然他们的办法更灵活些,在允许使用大量搜索次数的情况下,他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。
  一个有趣的地方是在每次搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。除此之外,他们也用了一些技巧,以在搜索一开始时,避免多个线程同时搜索一路变化,这部分我们在DarkForest中也注意到了,并且做了改进。
  5、总结
  总的来说,这整篇文章是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。在成功背后,是作者们,特别是两位第一作者DavidSilver和AjaHuang,在博士阶段及毕业以后五年以上的积累,非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉,是实至名归的。
  从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。可以说,没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。
  在AlphaGo中,增强学习(ReinforcementLearning)所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在AlphaGo中增强学习更多地是用于提供更多质量更好的样本,给有监督学习(SupervisedLearning)以训练出更好的模型。在这方面增强学习还有很长的路要走。
  另外,据他们的文章所言,AlphaGo整个系统在单机上已具有了职业水平,若是谷歌愿意开几万台机器和李世石对决(这对它来说再容易不过了,改个参数就行),相信比赛会非常精彩。
  下面是根据读者提问做的一些更新。
  问题1:ldquo;Alphago的MCTS做rollout的时候,除了使用快速走子,还用了搜索树的已有部分,看起来像是AMAFRAVE反过来:AMAF是把快速走子的信息传导到树的其它无关部分,Alphago是把树的其它无关部分拿来增强快速走子。我怀疑这是不是它棋力比其它DCNNMCTS强的原因之一。
  这个办法在解死活题的文章中出现过,会在一定程度上提高搜索效率,但是提高多少还不知道。
  问题2:ldquo;rollout的走法质量变好可能会导致棋力下降。rdquo;
  这里要分两种情况,treepolicy和defaultpolicy。在AlphaGo的文章里面已经说过了,treepolicy的分布不能太尖,不然在搜索时太过重视一些看起来的好着,可能使得棋力下降。但是除了这种原因,一般来说treepolicy变好棋力还是会变强的。
  defaultpolicy这边,即(半)随机走子到最后然后判分,就很复杂了,质量变好未必对局面能估得更准。defaultpolicy需要保证的是每块棋的死活大体正确,不要把死的棋下成活的或者反之,而对大局观的要求反而没有那么高。双方完全可以配合着把每块棋下完,然后转战另一块,而不是说抢在对方前去别处占先手。

fn键设置方法fn键设置方法是怎样的呢?其实Fn键,意即Function(功能键),单独按Fn键是没有功效的,这是一个组合键。又因为不同的品牌Fn功能键的组合功能是不一样的,一般而言,可以查……现代摄像头怎么样现代摄像头评测图文随着科学技术不断的发展,社会上出现了非常多的科技产品,这些科技产品的出现使得人们的生活方式带来了非常大的变化。电脑的出现促进了摄像头销售的火爆,而大家都知道一款好的摄像头会使得……飞利浦液晶电视有什么常见故障飞利浦液晶电视维修常见的故障图文是否有过这样的感受,正在津津乐道地沉浸在电视剧情节时,电视突然出现了黑屏、花屏等现象,有时明明上一次使用还正常关机,等到使用时却没有了任何的反应,如此多的小问题出现,真是令我们……拼多多怎么申请运费补贴拼多多这款购物软件不仅商品资源丰富,而且优惠福利大。估计还有很多朋友都很疑惑拼多多怎么申请运费补贴,下文就是为大家分享的申请运费补贴方法讲解,想要快速解决这个问题的玩家们快来这……防雷设备是什么防雷设备是什么信息时代的今天,电脑网络和通讯设备越来越精密,其工作环境的要求也越来越高,而雷电以及大型电气设备的瞬间过电压会越来越频繁的通过电源、天线、无线电信号收发设备……192。168。1。253路由器密码的设置方法?本文介绍了192。168。1。253路由器密码的设置方法,包括登录密码的设置和无线密码的设置2个方面的内容;192。168。1。253是TPLink迷你(mini)无线路由器设……打卡机是什么打卡机ldquo;冷酷无情rdquo;的执法者,让上班族ldquo;痛不欲生rdquo;。对目前市面上打卡机的种类有很多,下面介绍的是其中集中类型:机械式,跟刷卡式。打卡……华为路由器BGP协议属性不互通的解决方案IBGP仅用于多归属场合,必须以全网状结构相连,它允许边缘路由器共享NLRI及其相关属性,从而增强系统范围内的路由策略,注意要防止在AS内部形成BGP路由环路,确保BGP路由路……红米10怎么设置截屏快捷键有哪些截屏的方式红米10是一款全新的百元5G手机,那么这款手机可以设置截屏?小编为大家带来最新的手机资讯,快来看看吧。红米10怎么设置截屏快捷键?1、通知栏截屏下拉通知栏,通……索尼EX640系列有多少个USB接口索尼EX640系列有2个USB接口。索尼EX640系列采用了分辨率为19201080的超薄液晶宽屏,炫薄LED背光源,画面显示效果十分震撼,与居家设计形成了完美的搭配,而……三星UA46ES6100支持局域控光技术吗三星UA46ES6100不支持局域控光技术。三星LEDES6100系列精致的外观设计,将为用户的家居生活增添一份华贵。三星优雅的窄边框设计,极大提升画面临场感,为用户带来……卡萨帝F冰箱怎么样卡萨帝F冰箱特点介绍详解卡萨帝冰箱是一种意式的品牌,是一种潜入一体化的高端橱电品牌,并且享誉全球。今天小编要介绍的是卡萨帝F冰箱怎么样,主要有自由嵌入式设计、MSA控氧保鲜室可调节氮氧比例、原创保鲜黑……
空调怎么换气空调怎么换气?空调的换气功能原理其实很简单,主要通过以下2种方法:一是抽出室内空气,导致室内压强减少,室外的空气就会想尽办法在一些细小的门缝、窗缝等位置跑进来,就达到了更换空气……柜式空调哪家好柜式空调特点介绍详解柜式空调哪家好?国美空调服务周到,安装快捷,噪音小。电风扇配西瓜?空调配电扇?酷热的夏日怎么才能避免高温造成的伤害,上班族、学生党,大多数人都会说吹空调啊,夏天就应该和空调最配……麦克维尔中央空调怎么样麦克维尔中央空调介绍图文在我们的生活中有一种空调是中央空调,小编相信许多人都知道中央空调是什么。但是市面上的中央空调品牌有许许多多,麦克维尔中央空调就是其中之一。那么大家对麦克维尔中央空调的了解有多少……HTC刷机为什么会变砖HTC刷机变砖修复方法介绍教程HTC刷机变砖了怎么办?HTC刷机变砖的原因是什么?一、手机刷机变砖的原因1、最常见的,就是过早拔出手机数据线。用电脑刷机时,很多人一着急就会拔出数据线,而这反而会……OPPOA74电池多大支持多少瓦快充OPPOA745G搭载90Hz刷新率屏幕,采用侧面指纹识别解锁,那么OPPOA745G电池多大,支持多少瓦快充,一起来看看吧一、硬件参数核心数八核RAM容量8GBROM容……脸部提升按摩仪哪款好LGtuneage脸部提升按摩仪推荐详解爱美的女性总是会通过各种仪器来使自己变美,脸部提升按摩仪就是众多美女使用的产品,那么今天小编要为大家介绍的这款脸部按摩仪是LGtuneage脸部电动按摩仪,它又有哪些功效呢?下……联想乐phonek860怎么样?报价多少?联想乐phonek860是知名品牌mdash;mdash;联想旗下的一款经典卓越的产品,它在市面上的评价十分出色,而且在消费者心中的地位也很高。那么接下来小编就要为大家介绍联想……路由器设置PPPOE密码后验证失败的原因有哪些若使用路由器进行PPPOE拨号时出现无法连接,系统日志提示密码验证失败,具体检查和解决方法如下:一、可能是ISP(网络服务提供商)服务器故障,如果是这样请直接致电ISP询……太阳能热水器手动上水原理是什么太阳能热水器上水方式简介在日常生活中谁都希望可以随时随刻的正常使用热水,这样就可以在家中舒舒服服的洗上热水澡,所以,使用太阳能热水器的人就非常多,可是,很多人对在日常上水时都会遇到各种问题,下面小编就……外星人笔记本价钱是多少游戏型的笔记本电脑在市场上一直很有销量,特别是年轻人很喜欢购买游戏笔记本电脑来玩网络游戏。针对人们对于这类型笔记本电脑的需求,很多品牌也推出了相应的产品,国际电脑巨头戴尔自然不……nox智能床头灯评测nox智能床头灯优点介绍详解睡到半夜的时候总会起来,如果房间里面黑漆漆的话就很容易会摔跤,但是把灯全部打开又太浪费资源了,这个时候使用智能床头灯就特别的合适了,既不用但是摔跤又不用但是浪费了,nox智能床……松下智能照明怎么样松下智能照明系统优点介绍详解松下电器,绝对是在全世界都家喻户晓的产品,而松下在照明的领域也在不断的发展技术创新,最新研制的松下智能照明系统就成为了消费者喜爱的一款产品,那今天小编就来为大家介绍下松下智能照……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网