应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

DeepMindVSMeta实现纳什均衡理性最优解,还是多人

  大数据文摘转载自AI科技大本营
  编译整理:杨阳
  记得豆瓣高分电影《美丽心灵》中的约翰纳什吗?
  作为获得诺贝尔经济学奖的数学家,纳什在博弈论、微分几何学,以及偏微分方程等各个领域都作出卓越贡献。为表彰他在非合作博弈理论中对均衡(纳什均衡)的开创性分析,1994年瑞典中央银行授予纳什诺贝尔经济学奖。
  纳什均衡在社科中的应用可谓成功,而在科技领域中,也经常引用博弈论的逻辑来进行技术实现,比如,通过密码学和博弈论的结合实现大数据安全。当下,这一逻辑也开始应用在AI的算法上。
  DeepNashDeepMind制造的最新款人工智能,它名字中的Nash即为纪念纳什而命名。在AlphaGo之后,谷歌已降低在棋牌领域的关注,之所以推出DeepNash,在于借鉴纳什均衡的逻辑设定基础上,这款AI模型得以在西洋陆军棋Stratego(策略)中击败专业玩家,这比在国际象棋、围棋和扑克的比赛中击败人类更加困难。
  DeepNash是怎么做到的呢?
  超越围棋的走法量,诉求无模型和强化学习
  相较其他棋牌游戏,Stratego在规则上就包含了更多不确定性,包括玩家之间的信息非对称。比如,象棋和围棋的牌面和走位都是公开的,但Stratego的牌面却是看不到的,这点和玩扑克一样。另一方面,相较于围棋只有一个初始定位,德州扑克有106个,而Stratego有惊人的超过1066个可以选择的起始点。要知道,1066这个量级已经超过了宇宙中所有星辰的总量。
  在博弈树的算法统计量上,Stratego可能的走法达到不可思议的10535种,围棋的这一数量为10360。
  信息非对称、路径解极多,极度复杂性意味着通过通用的蒙特卡洛树模型玩转Stratego并不可行。DeepNash的研究者之一,DeepMind研究员Perolat表示:那些适用于扑克的算法在Stratego中是完全行不通的,可能的结果量级太过庞大,因而非常复杂,信息的处理需要更为完备的方法。
  最终,团队找到的方法是无模型强化算法,意味着在任何模型都无法实现精确模拟的情况下,让DeepNash就像一个婴儿或者一张白纸一样进行从0开始的积累。但这使得预测变得困难,甚至完全不可能。
  为了解决这个问题,团队使用了深度强化学习为DeepNash提供动力源,目的是找到最优的纳什均衡。
  运用纳什均衡,在信息不对称中诉诸最优解
  强化学习算法如同钢铁侠,可以处理大规模数据量的问题,但牌面的信息不对称又该如何解决?该DeepNash中Nash发挥作用了。
  纳什均衡,也是非合作博弈均衡分析,社会学和经济学专业学生对这个名词非常熟悉。其中最著名的实验就是后来经常应用在犯罪心理中的囚徒困境。这一理论给出的现实命题是:对于处于非合作博弈中的双方,无论对方如何选择,当事一方只有一种确定的策略对自己来说是最优解,因而两方都会选择自己的最优,最后达成彼此最优下的博弈均衡。
  比如,两个共同犯罪的嫌疑人分别接受审讯,如果双方都不坦白,两人各自获刑一年;其中只有一方坦白,坦白的无罪释放,不坦白的获刑十年;而如果双方都坦白,各获刑五年。在这个假想实验中,都不坦白才是整体最优。然而,对于两位囚徒来说,肯定都希望无罪释放,而无论对方是否坦白,自己坦白都是理性最优解,所以最终的结果就是各获刑五年。
  如果将纳什均衡的逻辑放到DeepNash的算法设定中,游戏中互相看不到牌面的双方就像囚徒困境中无法串通的两个囚徒,彼此是非合作博弈。在信息不确定的情况下,只有走无论对方出什么牌我都是最优选的牌,才能确保在多轮博弈中获胜。
  DeepNash获得同类竞技97胜率
  纳什均衡和加上强化学习,最终达成均衡下的最优解:通过每位玩家获得任何收益都会导致对手损失的逻辑,凭借强化学习在游戏的每一步中计算下一步的最佳算法。就这样,DeepNash开启了自我对抗训练。
  训练的奖惩机制是:当DeepNashA获胜时,该网络参数将会增强;同时,对手方DeepNashB的参数将会被削弱。通过55亿次的对弈,DeepNash取得了很好的成绩,失误率越来越小,无限接近纳什均衡最优。
  在算法测试中,DeepNash以97的胜率压制了其他机器选手。而在Gravon游戏平台上,通过和人类专业棋手进行两周多的竞技,DeepNash最终在有20年历史的积分排名榜中升至第三位。
  除了学习能力惊人,DeepNash更让人惊讶的地方在于,它在开局不会固定自己的起始位置,而是不断优化起始点。这样做究竟是随机在10535种可能性中寻找最优解,还是有意识地避免对手对自己出牌套路的破解而故意为之,目前不得而知。如果是后者,就让人不寒而栗了。不过,DeepNash确实会用一些看上去诱骗的方式来引诱对手落入陷阱,通过一些看似无意义(棋子重复跳动),或者牺牲高级棋子(让对方放松警惕),从而进行伏击。
  加入非理性测算后的多方博弈
  DeepNash确实相当厉害,但如果你仔细观察也不难发现,纳什均衡的状态是发生在两方之间的,而现实世界往往并非两者的零和博弈。当博弈均衡需要发生在多方,又会呈现怎样的态势呢?
  对此,MetaAI研究员们的发明或许更具挑战性:创建了能够玩多方博弈游戏的AI模型Cicero。在一款名为Diplomacy(外交风云)的游戏中,多个玩家每人代表一个国家,最多可以有7个玩家一起玩。游戏规则是进行军队和战舰的战略部署,从而获得对供应中心的控制权。
  和DeepNash在Stratego中展现的非合作博弈下的纯零和状态不同,Cicero的博弈模式设定更加开放,包括每个玩家都可以私下进行交流和合作,而当合作博弈与非合作博弈都构建在多玩家的算法模型中时,预期结果更加不可控。
  Cicero的开发者之一NoamBrown表示说:当你超越双人的零和游戏时,纳什均衡的概念对于与人类打好关系不再那么有用。
  目前,Cicero已经在Diplomacy的125,261场游戏中进行了训练,它的推理模块(SRM)已经学会预测自身的状态,包括其他玩家可能采取的策略。通过预测,SRM会选择最佳的行动路径,并向其拥有27亿参数语言模型的对话模块上发出意图信号。
  在Brown看来,像Cicero这样能够与人类进行互动,并且可以对人类的非理性次优行为进行解释的人工智能才能越来越接近现实世界,从而为未来的应用铺平道路。他以智能驾驶举例:你不能设想道路上其他司机都是理性的。
  唯理派PK经验论:哪个更接近现实?
  在应用上,尽管DeepNash是为Stratego而开发的,但它的实际用途远不止在游戏世界里捣乱。未来将会用在便利人们生活的各个方面,比如交通或者市场预测。
  和DeepNash一样,Cicero未来也会应用于现实世界,我们虽然有一只脚在游戏世界里,但现在我们也有一只脚在现实世界里。
  对于DeepNash和Cicero,你认为它们哪个更可能实现在现实世界的落地呢?请留言投票。
  参考链接:
  https:singularityhub。com20221205deepmindslatestaitrounceshumanplayersatthegamestratego
  https:www。nature。comarticlesd41586022042467

见证实力共谋发展雅茶集团组织各地经销商企业家到雅参观来源:四川新闻网3月27日,在第十九届蒙顶山茶文化旅游节开幕式在雅安举行。本次活动以中国蒙顶山世界茶之源为主题,以线下活动为主、线上活动为辅,形式创新、内容丰富,多角度、……人到了一定的年纪,就要学会沉默,知足常乐作者:子墨三月,春上了花枝,小区里的那一枝早开的玉兰花,花蕊初绽,与光阴把盏对饮。时光静好,春意浓浓,亦与岁月把酒言欢,春柳已成烟,在淡墨勾勒的春色中,让自己安坐一……集体唱反调!30多家芯片巨头,调转枪头剑指美国!外媒咎由自取众所周知,由于中国芯片产业快速崛起,华为、中芯国际等国内企业取得突破,在芯片领域的发展势头势不可挡,比如华为的麒麟芯片就一度超过高通,成为世界上最先进的高端芯片,中芯国际计划采……Anker推出PowerCorePlay6K手机手柄约合25目前市面上拥有大量适用于手机的手柄,但并非所有手柄都同时适用于Android和iOS平台。今天,知名外设厂商Anker推出了一款名为PowerCorePlay6K的手机游戏手柄……时间的告白131这次沐沐要拍摄的是某杂志封面,这主编也是老朋友了,上次那次封面,直接当天售空,过后主编约了好几回,各种原因,未能如愿趁这会疫情过去,沐沐新开剧拍摄点也在广东,赶紧地……岳飞墓前本来跪着5个人,为何后来变成了4个,另外一人去了哪里盖飞与桧势不两立,使飞得志,则金仇可复,宋耻可雪。《宋史。岳飞传》今年春节,沉寂了三年的人们纷纷走出家门,带火了我国的旅游市场,同时上映的贺岁片也点燃了大家的热情。……三星GalaxyWatch3的心电监测功能已获FDA认可继2018年的AppleWatch之后,三星GalaxyWatch3智能手表的心电监测(EKGECG)应用,也获得了美国食品药物管理局(FDA)的认可。三星高级副总裁Feder……Xbox调侃PS5我们所有游戏都兼容XboxOne手柄在昨日索尼官方确认DualShock4手柄不完全兼容PS5游戏主机之后,微软忍不住在向后兼容性这点上对索尼进行调侃。在Xbox官方发布的最新推文中表示:ldquo;XboxSe……索尼PS4销量下降PS用户和数字游戏销量却在增长据外媒报道,当地时间周一,索尼公布了公布2020财年(4月1日至6月30日)第一季度的业绩报告。整体来看,该公司的业绩相当不错,其综合销售和运营收入接近2万亿日元(190亿美元……索尼影像及传感解决方案业务Q1收入同比下降11据国外媒体报道,索尼日前公布了2020财年第一财季(2020年4月1日mdash;2020年6月30日)财报。财报显示,索尼集团整体收入较去年同期略有增长,但受疫情影响,索尼旗……谷歌更新Nest智能音箱功能更好的铃声和返校乐趣随着美国各地家庭开始不寻常的返校季,谷歌周二宣布对其Nest扬声器和智能显示器进行更新,旨在使学习更有趣,工作家庭更有组织性。这些更新包括向特定的扬声器或显示器广播的能力,这是……索尼放出WH1000XM4宣传视频充电10分钟播放5小时尽管市场的品牌号召力不如苹果公司,但是索尼在消费级数码市场同样有不少忠实拥趸。根据近日曝光的宣传视频,索尼有计划在8月6日推出新款WH1000XM4耳机。作为Mark3的继任者……
日本Luxman力仕D03XCD数字媒体播放器永恒的设计与最先进技术相结合D03X播放器体现了最先进的数字解码技术以及最恒久设计和工程方法。新D03X将传统CD播放器与具有MQA解码功能及先进高分辨率电路相结合。最重……电子魔术贴纸可让普通物品变身为物联网传感器弗吉尼亚大学和普渡大学的研究人员们,刚刚介绍了他们打造的新式可裁剪电子薄膜。它可以轻松地从硅晶片上剥离下来,然后粘贴在任意物件的表面,从而实现特定的ldquo;物联网rdquo……残疾男子发明免持Jamboxx乐器并希望在比赛中奏国歌据外媒报道,35年前,19岁的DaveWhalen因一场滑雪事故中而变为一名残疾人。不过现在他成为了一位拥有摇滚梦的律师:他希望在一场美国职棒大联盟比赛中演奏美国国歌《TheS……Switch外壳出现了非人为性裂缝或是散热不均引起!近日有许多玩家在网上表示,自己的任天堂Switch的外壳出现了裂缝,包括电源按钮和散热孔附近,据这些玩家表示,这是机器自己的设计问题,而非外力导致。为了找出Switch这……Cortana恒温器GLAS有望八月上架微软商城!去年微软宣布同江森自控(JohnsonControls)开展合作,共同推出基于Cortana语音助手的智能恒温器GLAS。但此后微软就没有太多提及这款产品,不过近期发布的官方博……阿斯顿马丁发布VolanteVision概念飞行汽车渲染图据外媒报道,无论是Uber还是阿斯顿马丁,飞行汽车风潮都为它们提供了发展空间。日前,阿斯顿马丁公司公布了VolanteVision概念飞行汽车。和许多其他个人空中交通概念一样,……三七粉抗癌吗?对肝有何好处?老人常吃有何危害?哪些人不能吃?非常病例三七为五加科植物三七的干燥根及根茎,三七粉是三七主根打成的粉,其味甘、微苦,性温,归肝、胃经,苦泄温通,甘能补虚,行止兼备,主泄兼补,既化瘀而止血,又活血而止痛,……夏至到三伏,建议少吃肥肉,多饮5水,生活简单,整夏健康夏至过后,我们即将迎来最热的三伏天。此时,不论是在南方还是在北方,我们都被强烈的高温以及阴雨绵绵的梅雨季所包围着,再加上大家喜欢待在空调房里,喝冷饮、吃冰镇西瓜,长期下去别说中……MacBook蝶型键盘遭炮轰,2018款加了层硅胶保护7月14日消息,据国外媒体报道,通过对苹果最新的MacBookPro进行拆解后发现,这实际上是一种解决键盘可靠性问题的静音方案:苹果公司已经将蝴蝶型键盘开关装在了薄薄的有机硅屏……微软声明其服务并未应用于ICE机构面部识别系统在经过一系列令人费解的公关声明后,微软今天正式通过博文声称,其为美国移民和海关执法局(ICE)提供的服务中并未包括被用于面部识别系统的技术。超过300位微软员工发布公开信要求微……无人机桨叶太吵?试用环形转子的WhisperDrone吧!尽管消费级多轴无人机受到了很多人的欢迎,但它也有着一个明显的缺点mdash;mdash;运行时会发出嘈杂而尖锐的噪音。为了缓解这个问题,电气工程师DerekSchwartz将它……低成本设备可在在一小时内检测蚊媒病毒!据外媒报道,如果某一地区的蚊子开始携带诸如寨卡或登革热等病毒,那么地方卫生当局越早知道越好。目前大部分的蚊子检测程序至少需要一周的时间来提供结果,但一种新的生物传感器可以在不到……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网