GPT4写代码能力提升21!MIT新方法让LLM学会反思
Pine发自凹非寺
量子位公众号QbitAI
GPT4再度进化!
加上一个简单方法,就能让GPT4这类大语言模型学会自我反思,性能直接提升30。
在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后emmmmmm,继续乱猜。
现在,它不会这样了,有了新方法的加成,GPT4不仅会反思自己哪里错了,还会给出改进策略。
比如说它会自动分析为什么陷入循环:
或者说反思一下自己有缺陷的搜索策略:
这是美国东北大学联合MIT发表的最新论文中的方法:Reflexion。
不仅适用于GPT4,也适用于其他大语言模型,让它们学会人类特有的反思能力。
目前该论文已经发表在预印平台arxiv上。
这把直接让网友直呼AI进化的速度已经超过我们适应的能力了,我们要被毁灭了。
甚至有网友为开发人员发来饭碗警告:
用这种方法写代码的时薪是要比普通开发人员便宜的。
利用二元奖励机制实现反思
正如网友所言,Reflexion赋予GPT4的反思能力和人类的思考过程差不多:
可以简单用两个字来概括:反馈。
在这个反馈过程中,又可以分为三大步:1、评估:测试当前生成答案的准确性2、自我反省的产生:错误识别实现修正3、执行一个迭代反馈循环
在第一步评估的过程中,首先要经历的是LLM(大语言模型)的自我评估。
也就是说LLM在还没有外部反馈时,首先要自己对答案进行反思。
那如何进行自我反思?
研究团队使用了一个二元奖励机制,为LLM在当前状态下执行的操作赋值:
1代表生成的结果OK,0则表示生成的结果不太行。
而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。
要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断。
在自我评估结束之后,如果二元奖励机制输出为1,则不启动自我反思装置,若为0,LLM则会开启反思模式。
在反思的过程中,模型会触发一个启发性函数h(如下),类比人类思考过程,h起到的作用就像是监督一样。
不过,同人类思考一样,LLM在反思的过程中同样也有局限性,这在函数中的和中就能体现。
表示重复连续动作的次数,一般会将这个数值设置为3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。
而则表示在反思的过程中允许执行的最大操作数量。
既然有监督,那修正也必须执行,修正过程的函数是这样子的:
其中,自我反思模型是通过特定领域的失败轨迹和理想反射对训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。
这样一来,LLM在反思的过程中便能够迸发出更多有创新性的东西。反思之后性能提升近30
既然GPT4这类LLM都能够进行自我反思了,那具体效果究竟如何?
研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。
在HotpotQA的100个问答对测试中,使用Reflexion这种方法的LLM显示出了巨大的优势,再经过多轮反思重复提问之后,LLM的性能提升了接近30。
而没有使用Reflexion,在重复问答之后,性能没有任何变化。
在HotpotQA的134个问答对测试中,可以看出在Reflexion的加持下,LLM经过多轮反思后,准确率一度达到97。
在另外一篇博客中,团队成员也晒出了他们这种方法在GPT4上的效果,测试范围是编写代码。
结果也显而易见,用了Reflexion,GPT4的编程能力直接提升了21。
关于GPT4已经会思考了,你怎(huang)么(le)看(ma)?
论文地址:
https:arxiv。orgabs2303。11366
参考链接:
〔1〕https:nanothoughts。substack。compreflectingonreflexion
〔2〕https:www。reddit。comrMachineLearningcomments1215dblrreflexionanautonomousagentwithdynamic
完
量子位QbitAI头条号签约
关注我们,第一时间获知前沿科技动态
口红是用什么虫子做的口红是用什么虫子做的真的假的,越高档的口红虫子越多吗,什么时候口红和虫子扯上关系了呀,别嫌恶心,这可是最健康也是最好的天然色素。。。很多人郁闷,什么时候口红和虫子扯上关系……
两性关系,10句暖到骨头的情话,拿去送给爱人1hr今天喝的咖啡没有加糖,却甜如蜜,后来发现,那是因为看见了你。2hr一见钟情,爱上你,日久生情,离不开你,那我们就一起手牵手走下去吧。3hr如果遇不到心动的人,……
上海科研团队构建染色体融合小鼠模型开启哺乳动物染色体遗传改造图说:类精子干细胞中小鼠二号染色体和X染色体以头对头形式融合形成双臂染色体来源中科院分子细胞科学卓越创新中心新民晚报讯(记者郜阳)染色体数目和结构的稳定是物种生存和繁衍的……
山东男篮外援最佳人选出现!这才是山东男篮的真命天子?据TheAthletic记者ShamsCharania报道,多位消息人士透露,凯尔特人裁掉了大前锋布鲁诺卡波科洛。卡波科洛是2014年20号秀,他在2021年1月被火箭裁掉,上……
美国旧金山转机香港顺利抵达南京的攻略回国五天了,说下我的这趟旅程。如果像我这样没买到直飞的朋友可以选择到香港转机,转机其实是件复杂的事情,因为飞到香港要在隔离酒店住上三晚,然后在转场普通酒店待上一天,最后坐车到机……
女子实名举报王俊凯!曝与某女星有染,杨幂疑被牵扯,曾2次败诉这两天娱乐圈再度进入贵圈,各种大瓜黑料层出不穷,因为某顶流塌房的缘故,连累不少明星躺枪,陷入争议中备受质疑。其中王嘉尔被迫发声明澄清回应,粉丝甚至呼吁千万别塌,可见对其有多担忧……
NBA2K2314人评分被高估,11人评分应降低2K232K这款游戏深受球迷喜爱,同时因为每年新款2K发布的时间恰逢休赛期,也吸引了球迷的关注,球员的能力数值也引发了大量的讨论。不过,相比往年,2K23似乎充满了争议。……
1974年世界杯,荷兰队用全攻全守战术,让世界重新认识了足球1974年第十届世界杯,又转回了欧洲,在联邦德国举行。世界杯举办国资质,一般有两方面考察,一个是该国的足球水平,够不够资格办世界杯。一个是国家实力,有没有能力办世界杯。……
十一假期探秘新晋网红双龙峡景区探幽谷神潭寻绚烂秋色我在头条搞创作第二期时至初秋,国庆将至。我相信很多小伙伴们又都蠢蠢欲动,开始为自己的十一假期设计出行路线。一如既往,今天我就用镜头带您走进一处神奇的景区,这里不仅有……
贝利病情恶化需要更特别照顾巴西媒体22日披露,巴西圣保罗当地的阿尔伯特爱因斯坦医院发布声明表示,82岁的贝利目前身体情况出现进一步的恶化,需要特别的照顾,不过他现在仍住在常规病房。声明指出,贝利自……
山东移动菏泽分公司信息化助力打造指尖农场中国山东网感知山东12月21日讯(记者孙慧敏通讯员车凯琪)十四五规划和2035年远景目标纲要提出加快推进数字乡村建设,2022年中央一号文件强调大力推进数字乡村建设。如今,5G……
养儿防老是自私的吗?大家好我是三娃熊妈,关注我聆听不一样的观点!2020年,我国出生人口为1200万,创下历史新低,越来越多的年轻人不愿意结婚生娃。从计划生育到开放二胎,中间用了三十四年过渡……