应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

全球1000名科学家组成BigScience,超大NLP模型

  编辑:拉燕好困【新智元导读】最近,由1000多位科学家组成的团队历时117天,搞出来了个超大的开源NLP模型。
  上半年,世界范围内1000多个科学家联合搞了个大团队。
  他们将会英勇地团结起来,一起反抗。。。
  众所周知,自然语言处理这一块的模型和数据库一直都被科技大厂牢牢地掌握在手里。从某种程度上讲,这算是一种技术垄断。
  这1000个科学家,有搞伦理的,有搞法律的,甚至还有搞哲学的。当然,也不乏来自Meta和谷歌的员工,不过他们都是以个人身份参与进来的。
  他们的目的也很简单,就是要整一个真正像样的NLP模型公平,公平,还是的公平。
  新的NLP模型取名叫BOOM,啊不是,是BLOOM。估计是希望这个模型能像花一样蓬勃绽开吧。
  不过,从前期投入来看,也确实应该有底气。
  据统计,来自公共的资助就有价值700万美元的训练时间,也就是说,没有这些机构的帮助,这笔钱就得自己花,才能完成训练。
  顺利的话,BLOOM足以和谷歌、OpenAI这种大厂掰掰手腕。而且更关键的是,还是开源的。此外,BLOOM将会是同等规模的模型中,第一个多语言模型。
  如今,BLOOM在训练了117天后,终于完事儿了。
  算力:蹭了价值300万欧元的
  不过说实在的,NLP大模型已经听腻了。
  毕竟说穿了它就是一种算法,模型会学习数十亿个单词和短语之间的统计学关联,然后执行各种任务,包括生成摘要、翻译、回答问题,以及对文本进行分类等等。
  尤其是,BLOOM在参数量上还没啥突破为1760亿个参数。
  具体来说,BLOOM和GPT一样,使用的是decoderonly架构。
  甚至还是从英伟达的MegatronLM和OpenAI的GPT2那儿改过来的。
  它拥有共70层,每层112个的注意力头(attentionhead),2048个token的序列长度,并采用了GeLU激活函数。
  同时,BLOOM还使用了13种编程语言,可以说主流的编程语言基本全用了。
  数据集方面,BLOOM算得上是多语言模型其中包括了46种语言。数据集的容量达到了3416亿个token,相当于1。5TB的文本数据。
  硬件方面,384个A100GPU用于训练,每一个都有80GB的内存。而一份模型需要48个GPU,每个GPU有60GB的内存。训练的吞吐量大约为150TFLOPs。
  团队预估的训练时间差不多是34个月,误差取决于训练过程中吞吐量的变化,以及可能出现的意外。
  今年的3月14日,BLOOM正式开始训练,用的是法国的巴黎郊外设立的JeanZay国家超算。(感谢法国研究机构CNRS和GENCI提供的价值约300万欧元的计算拨款。)
  经过几天的优化,团队很快就将训练速度提到了149150TFLOPsGPU。
  有一个非常有意思的点,刚开始模型还在按部就班的训着,基本保持每天1的速度,稳步前进。
  6月29日的时候,进度条终于到了100。
  就在大家都以为要结束的时候
  进度条在6月30日又涨了1。
  网友们也是一脸懵逼,这都冒顶了,咋还在蹭蹭涨。
  好在,最终还是停在了102。
  数据集:自己手搓的才靠谱
  虽说这类模型有些时候让人很满意,比如说生成诗歌,或是正确回答一些琐碎的问题等等,但说到底这些模型并不真的理解语言。这正是NLP模型也会生成一堆垃圾出来的原因。
  更令人担忧的是,语言模型还有可能宣扬错误的价值观,比方说种族主义,或是性别歧视。究其原因就是模型并不理解语言,给它塞什么就学什么。
  众所周知,数据集是开发模型时非常重要的一环。
  HuggingFace的机器学习研究院YacineJernite表示,现在存在的大多数模型都是直接从网络上抓取语言,包括Reddit等网站。
  而BLOOM却没有这么做。
  这群研究人员从500种来源中,人工挑选了341亿字的数据集的三分之二。其中包括SemanticScholar,这是一个AI支持的学术出版物搜索引擎,其中就包括Nature等顶刊中的内容。
  换句话说,BLOOM模型的数据集基本是手搓出来的。
  其中,选取数据集的来源是开会讨论出来的,同时还参考了其它社区团体的建议,比如非洲NLP社区Masakhane,LatinXinAI和MachineLearningTokyo。
  Jernite表示,我们想保证所有能应用这个模型的人,都能参与到数据集的选择当中。选取他们国家、他们语言中的内容。(然后引入了科学家自己的主观偏见)
  为此,BigScience团队使用多语言网络抓取的方式先把数据集的容量拉满,然后再对数据集的质量进行过滤,并对隐私政策进行了一些调整。
  该项目还减少了从色情网站中提取的内容量,这是为了避免最终模型会输出含有性别歧视的内容。
  同时Jernite也承认,BLOOM也不是说一点偏见就没有了。但是通过向它输入多文化和高质量的内容,BigScience团队还是想尽可能的改进现有的模型。
  最关键的是,正因为模型背后的代码和数据集是开源的,每个研究人员都可以进行尝试,了解哪些部分导致最终输出了负面的内容。这对未来的模型迭代很有好处。
  布朗大学的自然语言学习研究院ElliePavlick表示,对BLOOM的评估也将和此前的基准不同。除了将BLOOM与其它模型在回答问题的能力等方面作比较以外,研究人员还希望能考察更多的指标。
  例如,BLOOM对某些刻板印象的联想有多强,或者BLOOM对某种特定的语言有多么的偏向。
  Pavlick表示,因为现在BLOOM已经被训练成多语言模型了,那么它会对语言有更深的理解。这会帮助它对多样化任务的概括能力。
  同时,Leahy预测,鉴于语言数据集的规模不大,该模型在英语中的表现可能要比其它大模型略逊一点。但是,因为BLOOM在其它方面有别的优势,Leahy认为这应该能抹平这种差距。
  开源:但会随时调整
  亮点来了。
  前提到的以往的NLP模型由大厂掌控,所以BigScience团队才琢磨着要做这么一件事。
  其实NLP模型的训练过程可以说是大同小异,BLOOM之所以有它独特的意义,就是因为后续的开源环节。
  BLOOM团队表示,在训练完毕以后,所有相关研究人员都可以获得下载BLOOM的权限,不管是想用它做实验,或是为了别的目的用新的数据集给它做进一步的训练,都可以。
  但是,下载BLOOM,并且成功让它跑起来,对硬件能力提出了很高的要求。
  现在BLOOM只供一些大一点的研究团队使用,所以BigScience团队还没给小团队或是个人铺好路。以后,研发团队会发布小一点的、对硬件要求低一点的BLOOM版本。
  同时,还会开发一个分布式系统,能让各个实验室在各自的服务器上分享模型。
  此外,HuggingFace还会发布一个网页版应用,能让任何人都可以使用BLOOM,而无需下载。
  除了在AI领域的应用以外,FrancescodeToni还发现了在历史研究领域的应用。
  Toni来自西澳大学,这所大学坐落在澳大利亚珀斯。他是BigScience团队中的一名语言学家,领导BLOOM的一个小组。
  他们发现,BLOOM能够高效地从大量的历史资料中提取信息,而这是任何搜索引擎都做不到的。
  比方说,BLOOM可以从文艺复兴时期,商人之间往来的信件中提取所有的人名,或是出现的货物,以此来研究文艺复兴时期的历史。
  在发布BLOOM的同时,还发布了一份文件,描述了BLOOM的能力和一些局限性。
  在使用BLOOM之前,还需要签署一份会不断更新的法律许可,研究人员必须承诺不会把BLOOM用于恶意,或是不恰当的目的。比如生成假新闻。
  GiadaPistilli表示,该团队会一直监测模型的应用情况,并且会在必要的时候插手干预,调整许可证书和相关文件的内容。
  参考资料:
  https:www。nature。comarticlesd4158602201705z
  https:bigscience。notion。siteBLOOMBigScience176BModelad073ca07cdf479398d5f95d88e218c4
  https:mobile。twitter。combigsciencellm

两出两进!巴萨冬窗四人极限交易,最后6天送走登贝莱引进莫拉塔距离冬窗关闭仅剩下6天时间,虽然已经注册了费兰托雷斯和阿尔维斯,以及送走了库蒂尼奥和科利亚多,但是对于一心瘦身的巴塞罗那来说这并不满足。从各方消息来看,红蓝军团方面有意在最后6……中医最常见的几种舌像,看看你是属于哪一种?中医认为:舌面能反应身体的寒、热、虚、实,与五脏六腑相对应,因舌苔由胃气所生,而五脏六腑皆禀气于胃,因此,舌苔可反应脏不同的部位对应不同的脏腑舌尖到其中部之间属心肺,舌两……睡觉出现这五个异常,说明尿毒症离你很近了,可别忽视了说起生病,不少人可能都会倒吸一口凉气。要是遇到点小病小痛什么的倒也还好,花点钱治疗就行。要是遇到一些哑巴病,开始的时候症状不明显,难以察觉到,等到症状明显的时候,病情已经相当严……DOTA2冷门英雄蚂蚁,却能成为中期的节奏大师其实在现在的游戏中蚂蚁并不是每个人的主流选择,在游戏中看到蚂蚁更是难上加难,但是如果你能习惯如何控制蚂蚁的话,原来的分数很简单,这个我是理解的。蚂蚁是Dota2中最灵活的英雄之……印尼专线印尼空运印尼海运印尼专线物流双清包税到门印尼专线印尼空运印尼海运印尼专线物流双清包税到门主要业务包括清关包税到门,海运整箱FCL,散货拼箱LCL,空运等服务。雅加达双清包税到门印尼双清包税到门印尼空运专线……程序员2021。12。170、百度网盘青春版将开启内测:不限速,数据可互转百度此前宣布,将推出百度网盘青春版,免费用户将享受10G存储空间,百度网盘现有版本将同时为用户提供服务,两者可同一账号、同……过年常吃的5道大菜,提前做好,吃时热一热,越加热越香,省事过年常吃的5道大菜,提前准备出来,越加热越香,新年来客人了蒸上一碗,特别省事。天冷好存放,一次多做点,不慌不忙过大年,不会做的赶快学起来,别耽误了年夜饭,每道端上桌都很有面,全……电竞选手与教练顶嘴,竟然顶走了教练电竞选手与教练顶嘴,竟然顶走了教练,LPL第一位太子上单369究竟有多叛逆?这是TES战队在输掉比赛后训练室里的画面,指出问题的是教练白色月牙,进行拉扯的是369。这一幕……深度聊聊阿里巴巴和腾讯的现状优劣势,未来怎么发展前景更好阿里和腾讯未来发展前景谁更好,为什么每一年一个新变化,2000年到2020年这20年的发展,让中国互联网经历了好多轮的变革,从四大门户(新浪、腾讯、网易、搜狐)、到BAT(百度……嘿,磨黑!来源:【云南日报】去磨黑就像走邻居一般,由南向北既可以沿老磨思公路从农贸市场旁进入,又可以途经宁洱县城过八千方在康佳饭店前方岔路口右转直下,或从北边把边老公路沿河而上。如……泰捷WE60PRO电视盒子全新升级带来越级体验进入后疫情时代,为了自己的健康和社会的有序运行,更多的人选择更多的时间来居家生活,无论是在家学习、生活、办公,闲暇之余都少不了娱乐一下,让身心保持轻松愉悦,这才是健康的表现,而……iQOONeo7竞速版评测,游戏表现还不错大家现在看到是iQOONeo7竞速版的使用测试,看看它会有什么样的表现吧。这款手机的裸机贴膜的重量去到了204g,戴上保护套整体的重量也去到了222g左右,对于内置……
为什么尿毒症越来越多?医生和烟酒无关,多数是这4件事做多了肾为先天之本,是体内阳气的主要来源,生活中的很多不良行为都会间接损伤肾脏的健康,据调查:我国成人中慢性肾病发病率已达10。8,越来越多的国民患上了严重肾病,若不及时治疗加以根治……南宁强首府战略为何没有任何效果?南宁的强首府战略,从2018年正式提出,2019年正式开会发文实施,并且从组织上,具体落实措施上,目标上都作了具体部署。目标是,到2025年GDP翻一番,达到8200亿,……我国造纸行业需求回暖纸企盈利有望获得明显修复央视网消息:近期,国内多家造纸企业发布涨价函,涨价幅度在每吨100到200元不等,部分纸种甚至每吨提价1000元。未来纸价是否还会继续走高?当前纸企的生产情况如何?一起来看记者……水花兄弟半场48分打疯了!克莱8记三分挡不住,勇士打爆太阳北京时间3月14日,NBA常规赛迎来一场焦点战,勇士主场迎战太阳,水花兄弟在上半场火力全开,两人联手轰进了48分,勇士半场就轰下75分,领先了17分,打爆了太阳。勇士上一……输得起才会赢WTT新加坡大满贯继樊振东前期不敌韩国赵大成首轮被淘汰后陈梦和王艺迪又爆冷被淘汰!这就是比赛,比赛不会因为你是世界第一世界、第二就额外的关照你,每场比赛对每一个队员都是新……不再轻狂的天才球员姆巴佩姆巴佩,2018年俄罗斯世界杯横空出世。八分之一决赛法国对阵阿根廷,姆巴佩凭借着速度闯入阿根廷禁区,阿根廷防守队员无奈只能将姆巴佩绊倒,法国队获得点球,格列玆曼罚点,一击……没见过没听过的超级特惠梅西年薪5750亿莱昂内尔梅西的年薪超过4亿欧元(约合5750亿韩元)。精通欧洲足球转会市场、为英国《卫报》工作的记者法布里西奥罗马诺5日(韩国时间)在个人SNS上表示,据了解,阿尔希拉尔……顺丰以优质服务应对快递事故风险,顺丰丢件用户可以无忧2023年3月26日,顺丰航空第80架全货机飞抵深圳宝安国际机场,停靠在顺丰速运华南转运中心临空一侧,正式入列顺丰机队。这标志着顺丰航空货运优势进一步得到巩固,为企业持续加快派……张兰称不会再招聘低学历主播野孩子太容易膨胀了Tech星球4月11日消息,近日,张兰团队前员工发文称离职并申请劳动仲裁的消息引发热议。报道称,张兰俏生活的运营飞飞发文称自己已于4月3日离职,原因是薪资提成、加班加点的问题导……国色天香共赴嘉祥牡丹之约!牡丹,雍容华贵,美艳绝尘,是花中之王,视为富贵、吉祥、幸福、繁荣的象征。千百年来,她不但以其天姿国色为天下花圃争辉,还在无数艺术佳品中留下了令人难忘的卓越风采。牡丹花自古以来就……浙江财经大学团队获得首届中国研究生金融科技创新大赛一等奖近日,第一届中国研究生金融科技创新大赛决赛在清华大学举行,浙江财经大学中国金融研究院讯海拾贝团队带来的《ZUFE量化交易体系》项目荣获全国一等奖。本次大赛围绕金融科技创新……京东成北京国安顶级合作伙伴,京东到家将上线小时购球迷会场球队北京时间4月8日,京东与北京国安足球俱乐部在北京工人体育场举办发布会,宣布京东成为北京国安顶级合作伙伴。作为京东的践行全渠道战略的重要支撑、京东即时零售业务的代表,京东到……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网