应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

300美元平替ChatGPT!UC伯克利领头,130亿参数小

  编辑:桃子好困【新智元导读】继草泥马(Alpaca)后,斯坦福联手CMU、UC伯克利等机构的学者再次发布了130亿参数模型骆马(Vicuna),仅需300美元就能实现ChatGPT90的性能。
  继Meta的LLaMA模型开源后,AI界研究人员就在这个模型基础上衍生出许多版本。
  前段时间,斯坦福发布了Alpaca,是由Meta的LLaMA7B微调而来,仅用了52k数据,性能可以与GPT3。5匹敌。
  今天,UC伯克利学者联手CMU、斯坦福等,再次推出一个全新模型130亿参数的Vicuna,俗称小羊驼(骆马)。
  Vicuna是通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来,训练成本近300美元。
  研究人员设计了8个问题类别,包括数学、写作、编码,对Vicuna13B与其他四个模型进行了性能测试。
  测试过程使用GPT4作为评判标准,结果显示Vicuna13B在超过90的情况下实现了与ChatGPT和Bard相匹敌的能力。
  同时,在在超过90的情况下胜过了其他模型,如LLaMA和斯坦福的Alpaca。
  团队成员来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣地亚哥分校和穆罕默德本扎耶德人工智能大学。
  90匹敌ChatGPT
  研究人员让斯坦福的Alpaca和Vicuna来了一轮大比拼,分别对基准问题回答进行了演示。
  在使用70K用户共享的ChatGPT对话数据对Vicuna进行微调后,研究发现Vicuna能够生成比Alpaca更详细、结构更合理的答案。
  问:写一篇关于最近去夏威夷旅行的有趣的旅游博客文章,强调文化体验和必看景点。
  Alpaca的回答可以说是一个浓缩版,短短几行就写完了,没有按照要求完成任务。它仅是提到了自己写了一篇博客,并对博客内容做了一个概述。
  再来看Vicuna,撰写了一篇详细且引人入胜的旅行博客文章,不仅内容有趣,还详细地介绍了夏威夷的文化体验和必看景点。
  由此,让GPT4给打分,Alpaca7分,Vicuna满分。
  那么和ChatGPT对打,Vicuna的表现又如何呢?
  两者双双得了9分!
  可以看到,这两个模型提供一次夏威夷之旅的文章不仅引人入胜,而且文笔流畅。
  另外,两个回答中的详细程度和准确性都很出色,而且两个模型都有效地传达了夏威夷之旅的兴奋和美丽。
  此外,研究人员还将Vicuna与LLaMA,以及谷歌的Bard模型进行了测试,测试结果显示,LLaMA表现最差(1分),几乎没有回应。
  Bard回答的准确性和相关性也是比较高,有9分的成绩,但是在更具吸引力回答方面,略低于Vicuna。
  除了写作,研究人员在编码、数学、角色扮演、常识等方面分别对Vicuna模型与其他四个模型的能力进行了对比,总共80道题。
  最后,研究人员基于GPT4的初步评估总结如图所示。可以看到,Vicuna达到了BardChatGPT的90以上的能力。
  由GPT4评估的相对响应质量
  有趣的是,在这次Vicuna的demo中,团队还加入了Alpaca和LLaMA的试用,而前者刚被关闭不久。
  Demo地址:https:chat。lmsys。org
  模型介绍
  ChatGPT横空出世让人兴奋不已,但OpenAI不Open的事实让圈内人实在懊恼。
  恰恰,Meta的LLaMA模型开源,为许多研究人员动手研发自己的模型提供了选择。
  Vicuna13B诞生正是受到LLaMA和斯坦福Alpaca项目的启发。这是一个基于增强数据集和易于使用、可扩展的基础设施的开源聊天机器人。
  该模型的训练数据来自于ShareGPT收集的用户分享的对话,然后研究人员通过对LLaMA基本模型进行微调,Vicuna13B就诞生了。
  Vicuna13B展示了与其他开源模型(如斯坦福Alpaca)相媲美的性能。
  研究人员对Vicuna13B的性能进行了初步评估,并描述了其训练和服务基础设施。
  同时,这一模型演示demo已经上线,所有研究人员都能参与在线演示互动,以测试这个聊天机器人的能力。
  工作流程概述
  对于Vicuna13B训练流程,具体如下:
  首先,研究人员从ChatGPT对话分享网站ShareGPT上,收集了大约70K对话。
  接下来,研究人员优化了Alpaca提供的训练脚本,使模型能够更好地处理多轮对话和长序列。之后利用PyTorchFSDP在8个A100GPU上进行了一天的训练。
  在模型的质量评估方面,研究人员创建了80个不同的问题,并用GPT4对模型输出进行了评价。
  为了比较不同的模型,研究人员将每个模型的输出组合成一个单独的提示,然后让GPT4评估哪个模型给出的回答更好。
  LLaMA、Alpaca、Vicuna和ChatGPT的对比训练
  Vicuna是通过使用来自ShareGPT公共API收集的约70K用户分享对话数据微调创建的。
  为了确保数据质量,研究人员将HTML转换回markdown,并过滤掉一些不适当或质量较低的样本。
  另外,研究人员将较长的对话划分为较小的片段,以适应模型的最大上下文长度。
  Vicuna的训练方法建立在斯坦福的Alpaca基础上,并进行了以下改进:内存优化:
  为了使Vicuna能够理解长上下文,将最大上下文长度从Alpaca的512扩展到2048,这大大增加了GPU内存需求。在此,研究人员通过使用梯度检查点和闪存注意力来解决内存压力。多轮对话:
  通过调整训练损失以考虑多轮对话,并仅在聊天机器人的输出上计算微调损失。通过Spot实例降低成本:
  40倍的数据集和4倍的序列长度对训练带来了相当大的挑战。研究人员采用SkyPilot托管的Spot实例来降低成本,通过利用自动恢复抢占与自动区域切换进而减少成本。
  这种解决方案将7B模型的训练成本从500美元降低到约140美元,将13B模型的训练成本从约1000美元降低到300美元。评估
  评估AI聊天机器人是一项具有挑战性的任务,因为它需要检查语言理解、推理和上下文意识。随着AI聊天机器人变得越来越先进,现有的开放基准可能不再足够。
  例如,斯坦福Alpaca中使用的评估数据集selfinstruct,可以被SOTA聊天机器人有效地回答,这使得人类难以分辨性能差异。更多的限制包括训练测试数据污染和创建新基准的潜在高成本。
  为了解决这些问题,研究人员提出了一个基于GPT4的评估框架,从而实现对聊天机器人性能的自动评估。
  首先,通过精心设计的提示,让GPT4能够生成多样化且具有挑战性的问题。并利用8个不同类别共80道题,如角色扮演、编码数学任务等,来测试这些模型(LLaMA、Alpaca、ChatGPT、Bard和Vicuna)在不同领域上表现出的性能。
  然后,研究人员要求GPT4根据帮助程度、相关性、准确性和细节对答案的质量进行评分。结果显示,GPT4不仅可以产生相对一致的分数,还可以提供详细的解释来说明为什么给出这样的分数。但是,GPT4并不擅长评判编码数学任务。
  由GPT4评估的响应比较
  GPT4在超过90的问题中更喜欢Vicuna,而不是现有的SOTA开源模型(LLaMA、Alpaca)。
  在45的问题中,GPT4认为Vicuna的回答和ChatGPT差不多甚至更好。
  综合来看,Vicuna在总分上达到ChatGPT的92。
  局限
  研究人员指出,与其他大语言模型类似,Vicuna也存在着一定的局限性。
  比如,Vicuna在涉及编程、推理、数学以及事实准确性的任务上表现不佳。
  此外,它也没有经过充分优化以保证安全性或减轻潜在的毒性或偏见。
  为解决安全方面的问题,研究人员在demo中采用了OpenAI的审查API来过滤掉不适当的用户输入。
  剩下的名字不多了
  现在,除了美洲驼(LLaMA),羊驼(Alpaca),驼马(Vicuna)都安排上了。
  研究人员要赶快冲,因为留给你们的名字不多了(1个)。
  参考资料:
  https:vicuna。lmsys。org

18岁!杜锋外甥打上CBA了!在郭士强手下效力,他的表现如何本赛季的时代中国广州队,绝对是CBA最让人惊喜的CBA球队之一。上赛季,他们在多方力量的支援,以及自己非常争气赢球的情况下,挤掉了北控,搭上了季后赛的末班车。如今,他们更……华为P60Pro曝光麒麟9010北斗卫星通信,这才是国产手机这段时间关于华为P60Pro的曝光越来越多,很多朋友也很喜欢多介绍一下这款手机,今天就给大家汇总一下,目前关于华为P60Pro的相关爆料,感兴趣的朋友不妨了解一下。首先是……离婚6个月后,赵丽颖被网友怒骂不要孩子的女人,不配当妈大家好,我是荷包蛋妈妈。前几天,我刷微博的时候发现,赵丽颖被骂了?!离婚以后,赵丽颖来综艺《中餐厅5》里疗伤。一向心直口快的宁静和她聊起了孩子的问题,问她怎么不自己……坊间做了一天快乐的老人李登建一夜冷雨,清晨凉意很重,通往国昌的路上,地面铺了一层黄叶,树冠已没有往日那么茂密,明显见出疏落,一如我日渐稀少的头发。秋深了,草木凋零,谁也挡不住。俗语人活一世,草……NBA75周年75大巨星揭晓!湖人现役四人入选北京时间10月22日,NBA75周年75大巨星揭晓,湖人队现役四人入选,他们分别是詹姆斯、安东尼、浓眉,威斯布鲁克,其中威少压哨入选。一、詹姆斯职业生涯至今,詹姆斯……为了活下去?三年亏超170亿,威马宣布逆势涨价,最高涨2。5本文来源:时代周报作者:王贺特斯拉新年大幅降价,掀起新能源车市场的价格战,但威马却没有选择跟风降价。2023年1月16日,威马汽车在其官方微信发布公告称,自2023……美翻了!纪录片瑶池黄龙今晚央视首播茫茫林海,游云缕缕;金沙铺地,五彩连池。大自然的鬼斧神工为巨龙镌刻出片片金甲,也赋予他与世无争的飘逸灵秀。钙华千般美,他们从哪里来?瑶池在人间,她又将向何处去?……好书推荐用古诗来激发想象力,戴建业为孩子们量身定制了这本书《激发孩子想象力的古诗100首》戴建业撰复旦大学出版社他是学术大咖,华中师范大学文学院教授、博士生导师,古代文学学科带头人。他著述等身,已出版《澄明之境……家用空气新风系统到底是个啥?看一篇就够了I选购上手玩法2021年的双十一已经过去,对于新风系统小编也在网上搜寻了下相关信息,有机会学到了一些相关的专业知识。然而每个人的立场不同,内容就会有所偏颇,客观与否还请大家指正。大家好……官宣!霍华德遭到联盟的无视库里就是超级巨星纳什谈欧文缺阵NBA常规赛继续进行,同时联盟官宣了75大球星完整名单,霍华德遭到无视,没能成功入选;库里爆砍45分10篮板,关键时刻两记无解三分锁定胜局,他就是联盟超级巨星;纳什谈欧文的缺阵……1957年朱德初见李圆通道长,力劝其留任北京,道长为何没有答1957年4月,全国各地道教宗派领袖、著名人士齐聚北京,筹备成立了中国道教协会。古老的中国道教首次有了全国性组织,这是道教界的一件大事和喜事,时任国家副主席的朱德亲自到会……996一定搞不成创新最近,各大互联网公司,之前以加班多闻名的字节跳动推出1075的时间规则,即10点上班、7点下班、一周五天。这算是互联网行业反内卷的一次重要尝试。在今年年初时有一条震动互联……
白百何没戏拍变邋遢,穿健身裤来医院,毫无形象可言别看明星们在镜头前各种妆容精致优雅迷人,但私下里可是一个比一个真实啊,连白百何都逃不过它,没戏拍完根本就没有多真实,像个小邋遢。对形象不屑一顾,穿上健身裤就敢来医院,完全是靠措……无缘安卓口!挖孔屏iPhone14堪称脱胎换骨,价格还要涨上作为手机圈的标杆,iPhone新机的消息永远都能提前到来。这不是,最近网上就流出了一组iPhone14系列的机模谍照,相信很多小伙伴都迫不及待地想知道iPhone14有什么新变……国产最佳!耳机平板手机电视,OPPO全家桶的快乐我体验到了万物互联作为近几年数码产品发展的热点,我们在生活中已经不知不觉的进入了这个框架,举个简单的例子,购买iPhone的用户在选择其它数码产品时,往往会更偏向于苹果旗下的产品。还有就……一文读懂Kernel同步机制的底层实现(超详细)原子操作通常我们代码中的aa1这样的一行语句,翻译成汇编后蕴含着3条指令:ldrx0,aaddx0,x0,1strx0,a即(1)从内存中读取a变量到X0寄存器(2……用优惠价手表回馈股东,但部分款式与618大促一个价飞亚达这番每经记者:王帆每经编辑:董兴生A股上市公司回馈股东并不罕见,有的赠送产品,有的给予折扣。现在,又有一家企业加入回馈大军。6月15日晚间,国产手表品牌上市公司飞亚达(……6个月内8位明星因钱翻车!偷税漏税违法代言,个个不简单常言道,人为财死鸟为食亡,生活中因为金钱而出现的问题不少,就连日入千万,根本不差钱的明星也难以免俗。2022年才过去6个月,娱乐圈就有8位明星因为金钱问题饱受争议,着实令……如果疆粤交易,赵睿与周琦互换能够成行,广东和新疆达到双赢局面周琦去哪里的一份重磅猛料点燃CBA!据媒体人StarXia澳洲篮球报道消息,澳大利亚NBL联赛的自由球员跟踪网站上显示,周琦已与一支中国球队完成签约,但目前还尚需求证;众所周知……这3种容易吃出结石的蔬菜,草酸一个比一个高,注意这3点预防结经常看小米分享的朋友,肯定记得小米经常说的一句话就是:多吃蔬菜。相信大家在别的地方也听到过很多次,导致大家感觉蔬菜就是特别有营养,特别适合多吃的食物。但是呢,很多蔬菜当中……36氪首发以精油切入中高端护肤市场,自然无界完成千万元天使轮36氪获悉,精油护肤品牌自然无界获得千万元天使轮融资,由拙朴投资领投,自然无界创始人王铭个人跟投。本轮融资主要用于品牌推广、供应链强化以及团队搭建等方面。自然无界由王铭在……白嫖游戏推荐世界拉力锦标赛7,免费白嫖5款游戏根据亚马逊游戏网站资讯来看,22年一月份会免费赠送3A大作,有《世界拉力锦标赛7》steam原价182元,《双点医院》steam原价158元,《弃船逃生》steam原价80元,……ZbxTablezabbix优秀报表二开zbxTable是一个开源zabbix报表系统,go语言编写(张思德,zabbix中国社区开源专家),目前版本已更新到1。15版本,支持zabbix5。4版本。zbxTa……39岁瓦妮莎交年轻男友,俩人对视超甜蜜,网友科嫂彻底放飞自我对于喜欢篮球的人来说,科比的坠亡绝对意难平。当得知这个消息的时候,全球轰动,科比的妻子瓦妮莎也久久的沉浸在悲恸当中无法自拔。时间已经过去了两年多,科比和瓦妮莎还有三个孩子要养,……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网