应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

moe是什么意思(moe是什么意思中文人名)

  编辑:好困桃子【新智元导读】AI大模型环球影城正式开业!汽车人、霸天虎共集结,这次不是为了赛博坦,也不是元宇宙,而是为了疯狂争夺火种源。现实世界中,AI巨头在也在为这一生命之源大模型展开了无尽的争夺战。
  AI大模型领域的环球影城正式开业!
  汽车人、霸天虎集结,这次不是为了赛博坦,而是为了疯狂争夺火种源。
  现实世界中,AI巨头们在也在为这一生命之源大模型展开争夺战,进行巅峰对决。
  5300亿参数,烧了4480块英伟达GPU,威震天图灵(MTNLG)可以说是当前最大的语言模型。此外,GPT3有1750亿参数,浪潮源1。02457亿参数。。。
  自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。
  然而,这并不是终点,争夺火种源角逐还在继续。
  那么,这些AI巨头到底在争什么,在探索什么?
  大模型究竟是否是一条正确的道路?
  下一个模型有多大?
  从国外来看,2018年,谷歌提出3亿参数BERT模型惊艳四座,将自然语言处理推向了一个前所未有的新高度。
  可以说,谷歌最先开启了大模型一股热潮。
  紧接着,OpenAI在2019年初推出GPT2,15亿参数,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。
  还有英伟达威震天(MegatronLM)83亿参数,谷歌T5模型110亿参数,微软图灵TuringNLG模型170亿参数。
  这些模型一次次不断地刷新参数规模的数量级,而2020年却成为这一数量级的分界线。
  大火的GPT3,1750亿参数,参数规模达到千亿级别,直逼人类神经元的数量。
  能作诗、聊天、生成代码等等,无所不能。
  就在近日,微软和英伟达联手发布了MegatronTuring自然语言生成模型(MTNLG),5300亿参数。
  号称同时夺得单体Transformer语言模型界最大和最强两个称号。
  除了千亿规模的稠密单体模型,还有万亿规模的稀疏混合模型。
  如果将单体模型比作珠穆朗玛峰,那么混合模型就是喜马拉雅山脉其他的小山峰。
  谷歌在今年年初推出了1。6万亿参数的SwitchTransformer。而智源悟道2。01。75万亿参数再次刷新万亿参数规模的记录。
  好一副百家争鸣之势。
  为什么会这样?一句话,大模型是大势所趋,更是必争的高地!
  如今大模型的这种盛世,与深度学习时代极其相似。
  就好比十几年前深度学习的崛起一样,国内外AI巨头看到了这个技术的未来,于是纷纷入局于此,各种各样深度学习的模型不断涌现。
  现在,大模型更迭速度只会越来越快。
  NLP单体模型大PK
  那么,为什么我们要比较这几个模型呢?
  在讨论这个问题之前,需要先搞懂大模型都有哪些分类。
  比如说,从模型架构角度:单体、混合;功能角度:NLP、CV、对话等等。
  其中,谷歌SwitchTransformer采用MixtureofExperts(MoE,混合专家)模式将模型进行了切分,其结果是得到的是一个稀疏激活模型。虽然节省了计算资源,但是精度却很难提高。
  目前来说,自然语言处理领域单体大模型的顶流是:GPT3、MTNLG以及源1。0。
  https:arxiv。orgpdf2110。04725。pdf
  不过,中文和英文的模型之间区别还是很大的。
  在自然语言理解方面,由于分词方式不同、同一词组不同歧义以及新词汇等方面挑战,所以中文训练的难度更高。
  例如分词难点:中国科学技术大学;中国科学技术大学;中国科学技术大学。这三种不同的分词形式,表达的意思有着天壤之别。这还仅仅是其中之一。
  因此,训练中文NPL模型的训练难度要比同量级英文模型难度更高。
  要做就做最大的
  英文的高质量文本数据集可谓是五花八门。
  有包含HackerNews、Github、StackExchange、ArXiv甚至还有YouTube字幕的ThePile;有包含了超过50亿份网页元数据的数据平台CommonCrawl;甚至还可以用Reddit论坛的内容来进行训练。
  就拿ThePile来说吧,其中包含了825GB的多样化开源语言建模数据,由22个较小的、高质量的数据集合组成。
  GPT3采用了规模超过292TB,包含499亿个token的数据集。
  Tokens(亿)
  Epochs
  有效规模(TB)
  CommonCrawl(www)
  410。00
  0。44
  180。40
  WebText(Redditlinks)
  19。00
  2。90
  55。10
  Books2(Libgenorsimilar)
  55。00
  0。43
  23。65
  Books1BookCorpus(Smashwords)
  12。00
  1。90
  22。80
  Wikipedia(facts)
  3。00
  3。40
  10。20
  总计
  499。00
  292。15
  MTNLG则使用了15个数据集,总共包含3390亿个token。
  相比起来,中文的训练数据就匮乏得多了。
  最大的开源项目CLUECorpus2020只包含了100GB的高质量数据集。
  https:github。comCLUEbenchmarkCLUECorpus2020
  为了获得高质量的数据集,源1。0的团队开发了一套大数据过滤系统MassiveDataFilteringSystem(MDFS),其中包括数据收集、粗略过滤、精细过滤三部分。
  数据预处理流程图
  数据主要来自CommonCrawl、搜狗新闻(SogouN)、搜狗互联网语料库版本(SogouT,2016)、百科数据和书籍数据。
  待清洗的原始数据
  在对原始语料进行粗筛选之后,团队又训练了一个基于Bert的模型来对高质量、低质量和广告内容进行分类,并辅以人工筛查。
  精细过滤之后的高质量语料大小
  最后终于得到了5TB高质量中文数据集,其中包括近5年中文互联网的全部内容和近2000亿个词。
  计算效率up!
  有了数据集,也构建好了模型,现在就可以来谈一谈训练了。
  对于最新的MTNLG,由560台DGXA100服务器提供动力,其中每个DGXA100都有8个NVIDIAA10080GB张量核心图形处理器,也就是4480块A100显卡。每个GPU的算力直接飙到每秒113万亿次浮点运算。
  GPT3的训练则是在超过28。5万个CPU核心以及超过1万个GPU上完成,GPU在训练过程中达到每秒2733亿次浮点运算。
  而源1。0只用了2128张GPU,并在短短的16天就完成了训练。
  这又是如何做到?
  源1。0的团队创新性地采用了张量并行、流水线并行和数据并行的三维并行策略。
  张量并行
  在张量并行策略中,模型的层在节点内的设备之间进行划分。Transformer结构在进行前向计算和反向传播时,注意力层和多层感知机层的张量将会被按行或列进行拆分。输入端的张量首先会发送给每个加速器,在加速器中各张量独立进行前向计算。
  流水线并行
  流水线并行将LM的层序列在多个节点之间进行分割,以解决存储空间不足的问题。每个节点都是流水线中的一个阶段,它接受前一阶段的输出并将结果过发送到下一阶段。如果前一个相邻节点的输出尚未就绪,则当前节点将处于空闲状态。
  数据并行
  采用数据并行时,全局批次规模按照流水线分组进行分割。每个流水线组都包含模型的一个副本,数据在组内按照局部批次规模送入模型副本。
  从结果上看,源1。0的训练共消耗约4095PD(PetaFlopsday),相较于GPT3的3640PD,计算效率得到大幅提升。
  在零样本和小样本学习霸榜
  为什么一说大模型就要提这俩货?
  原因很简单,人类可以仅通过一个或几个示例就可以轻松地建立对新事物的认知,而机器学习算法通常需要成千上万个有监督样本来保证其泛化能力。
  而是否拥有从少量样本中学习和概括的能力,是将人工智能和人类智能进行区分的明显分界点。其中,零样本学习更是可以判断计算机能否具备人类的推理和知识迁移能力,无需任何训练数据就能够识别出一个从未见过的新事物。
  简单来说,零样本学习,就是训练的分类器不仅仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分;小样本学习,就是使用远小于深度学习所需要的数据样本量,达到接近甚至超越大数据深度学习的效果。
  不管是GPT3还是MTNLG,都在强调自己在这两方面的学习能力。
  当然,二者的区别在于,作为前任SOTA的GPT3被MTNLG以微弱的优势干掉了。
  GPT3在LAMBDA和PIQA测试集上取得的成绩
  MTNLG在LAMBDA和PIQA测试集上取得的成绩
  源1。0虽然没有办法直接和二者进行对比,不过在中文最大规模的语言评估基准CLUE上的成绩还是很有说服力的。
  在ZeroCLUE零样本学习榜单中,源1。0以超越业界最佳成绩18。3的绝对优势遥遥领先。在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军。
  在FewCLUE小样本学习榜单中,源1。0获得了文献分类、商品分类、文献摘要识别、名词代词关系等4项任务的冠军。
  刷榜终究是刷榜,虽然成绩很好,但实战起来还是很容易被人类一眼看穿。
  不过,其实从成绩单上的分数也能看出,不管是英文还是中文的模型,和人类比起来差距还是很大的。
  尤其是在情感理解和话题表达方面这类没有特定规则的情景下,比如作诗、写故事等等。
  大模型,去哪?
  AI巨头竞相追逐模型规模的新高度,这自然带来一个灵魂之问:他们在探索什么?
  当前,语言模型的训练已经从大炼模型走向炼大模型的阶段,巨量模型也成为业界的焦点。
  近日,PercyLiang,李飞飞等一百多位学者在发表的200多页的研究综述OntheOpportunitiesandRiskofFoundationModels中阐述了巨量模型的意义在于突现和均质。
  论文中,他们给这种大模型取了一个名字,叫基础模型(foundationmodel),其在NLP领域表现出了强大的通用性和适用性。
  目前AI研究的涌现性和同质化特征
  构建越来越大的模型,真的就会越来越好吗?
  从ELMo到Bert再到之后的GPT3等一系列模型,预训练模型的性能一直在提升,这是一个非常强的证据。
  而现在威震天图灵的参数量是5300多亿,可见,当前模型的参数规模可能也没有达到通用人工智能所要求的水平。
  所以说,更大的模型依旧是刚需。
  那么,构建越来越大的模型,真的能够通向通用人工智能(AGI)吗?
  OpenAI的无监督转化语言模型GPT3,展现出了从海量未标记数据中学习,且不限于某一特定任务的通用能力。
  因此让许多人看到了基于大规模预训练模型探索通用人工智能的可能。
  坦白讲,我们开始对大模型认识不太清晰的时候,认为它只是用来作首诗,对个对子,但其实这些并不是大模型的魅力所在。
  大模型真正的魅力在于不可知,而在于对未来的一个探讨。
  一位清华教授曾表示,GPT3已经越来越接近人类水平,但它有一个阿喀琉斯之踵。
  GPT这说明,GPT3很聪明,但它仍有一些认知局限没有常识。
  自然语言处理研究员、康奈尔大学数据科学家MariaAntoniak表示,谈到自然语言,更大的模型是否是正确的方法是一个悬而未决的问题。
  虽然目前一些最好的基准性能得分来自大型数据集和模型,但是将大量数据倾倒到模型中的回报是不确定的。
  这足以证明,对大模型进行探索是一个持续不断的过程。
  全球AI巨头争的是,探索的是大模型未知领域的处女地,可以说是面向通用智能最高阶智能的探索。
  其实,不仅仅是科学探索,它必然会产生一种催化效应,探索的成果也会带动CV、OCR、语音等领域的发展。
  因为,最终的智能产生是在这基础之上建立的。
  我是谁?我在哪?我将要去向何方。。。
  这对于人类来说是一直探索的哲学问题,那么机器会如何回答?
  当我们输入一些命题时,它能够给出很多灵感式答案。
  源1。0便是一个非常好的开始,但未来的路还很长。
  参考资料:
  https:arxiv。orgpdf2005。14165。pdf
  https:arxiv。orgpdf2004。05986。pdf
  https:arxiv。orgpdf2110。04725。pdf
  https:developer。nvidia。comblogusingdeepspeedandmegatrontotrainmegatronturingnlg530btheworldslargestandmostpowerfulgenerativelanguagemodel
  https:easyai。techaidefinitiontokenization
  https:lifearchitect。aimodelscontents

螺蛳粉排行榜(市售9款好口碑的螺蛳粉对比)螺蛳粉排行榜(市售9款好口碑的螺蛳粉对比)夏天到了,不想操心做饭又想吃得好怎么办?这两年突然火起来的网红方便食品螺蛳粉实在是好选择。虽然是方便食品,但是一般配料都达到6种……追光吧哥哥正在电视机前吐槽的你,可能已陷入节目陷阱今夏,《乘风破浪的姐姐》大火。看我弄潮搏浪,多认真的亮相,努力跳。哭过笑过,自责过也骄傲过。诚如歌词所写,台上30位女艺人通过自身努力,让观众看到了属于30女性的魅……整容失败的明星(女明星们怎么总是整容失败啊)整容失败的明星(女明星们怎么总是整容失败啊)女明星们怎么总整容失败啊!以下图片均来源于网络,不黑不捧,只代表个人观点!前排先来吃下娱乐圈的瓜同性相……韩国美女腿精宣美火了!红肚兜晒蜂腰细腿,网友果然是第一美腿点击上方关注小丸子,获取更多有趣有料的时尚资讯和明星穿搭。导语:如果聊一聊韩国娱乐圈里面美女,大家脑海里估计会想到清一色的锥子脸、大眼睛、大长腿、魔鬼身材毕竟韩国的……事件反转!知情人为钱枫洗白,见面细节曝出,称不要被女方带节奏导语:娱乐圈又出事端,感觉今年明星们进入接连塌方的魔咒,大部分还都跟女人有关。同一天黄旭熙钱枫接连出事,这是看不惯一个人处于风口浪尖,出面救急的吗?有自称是小艺的网友,发文称自……关之琳近况脸色红润气色佳,独住亿元豪宅太惬意,58岁单身无儿近日,女神关之琳在社交平台上晒出一则视频。从视频中可以看到,关之琳身穿暗红色花裙子,脸上化着一个十分精致的妆容,皮肤白皙,脸色红润气色佳,在一头黄棕色头发的衬托下显得十分时髦且……石原聪美嫁人后跌出十大!绫濑遥连续3年被选为最喜爱的女星日剧界一姐绫濑遥,最近获日本杂志《周刊文春》选为年度最喜爱女星,她已是连续3年称冠,真的厉害!昨日公布的本年度最喜爱女星排行榜中,亚军是人气剧集《海女》女星能年玲奈,她与……潜龙在渊(潜龙在渊!人类有没有可能从深海发现活着的龙?)潜龙在渊(潜龙在渊!人类有没有可能从深海发现活着的龙?)我们都知道,龙不过是一种传说中的生物,在世界范围内,都有类似的怪物出现,有的长了翅膀,有的没有翅膀。在西方,龙是邪恶的化……章子怡化身青蛇,好久没打了,但还是那么精彩自从嫁给汪峰以后,章子怡就开始相夫教子很少露面了。露面的时候也是为了支持老公的事业为多。不得不说章子怡既然选择了家庭,就非常认真的做好家长。一个男人俩闺女,确实够她忙一阵……演技敷衍化?逐渐黑化的李沁,观众缘薄弱的她能走多远?最近几天李沁因为在一档恋爱综艺节目中,说出恋爱中不安的本质是在意来讲明自己对于谈恋爱的看法,还因此登上了热搜。一时之间与许多人产生了共鸣,大家纷纷赞扬李沁对于恋爱解读得如此通透……何炅汪涵,到底谁更清白?2021年,可谓是娱乐圈的革命年。多位光鲜亮丽的流量明星,因为毁三观、违人性的事情,被钉上永远的耻辱柱。唇亡齿寒,作为明星的同类人,首先得保自己。所以,能跑的……开心辞典李佳明(46岁央视主持李佳明罕现身)开心辞典李佳明(46岁央视主持李佳明罕现身)01hr近日,少儿频道的知名主持人月亮姐姐晒出了一段视频,似乎消失了很久的前《开心辞典》男主持人李佳明也罕见现身。视频中……
播放量破1966万!开播首日就成黑马,连追8集完全不够看多部新剧开播最近网上又有许多新剧开播了,喜欢追剧的小伙伴快乐又回来啦!各种题材的电视剧都有,比如谭松韵钟汉良的甜宠古装戏《锦心似玉》;杨幂张彬彬的反谍剧《暴风眼》;李兰迪……谋女郎倪妮辛酸上位史,深爱过两位男神,却依然孑然一身1988年8月8日,倪妮出生于江苏省南京市,从小就是一个美人胚子,长得温婉细致,身材极好,特别讨人喜欢。虽然外表柔弱,但倪妮的性格却比较男孩子气,母亲为了培养她的淑女气质……ie浏览器打不开怎么办(IE浏览器无法运行的解决方法)ie浏览器打不开怎么办(IE浏览器无法运行的解决方法)IE浏览器打不开怎么办?电脑无法打开IE浏览器该如何解决?下面就给大家分享电脑系统IE浏览器无法运行的解决方法。解决……69岁洪金宝为河北加油,头发花白蓄起胡须,普通话标准状态佳1月17日,现年69岁的洪金宝通过儿子洪天明的视频账号发布了一则自拍视频,这是一则为河北加油打call的视频。在视频中,洪金宝特地用普通话介绍自己,也为河北加油助力。洪金……异地交社保违法!刚刚明确!11月16日起不按规定交社保的企业中道财税:房地产建筑业财税问题解决专家刚刚,一公司因异地缴纳社保,被判违法!即日起,企业这9种情况不要再有了,6种避税方法查到必罚!更重磅的是01hr判了!异地缴纳……杜星霖晒小女儿满月宴照,张纪中双手托起女儿满眼宠溺10月11日杜星霖在社交网络晒出女儿小花仙的满月宴照片,今年9月出生的小花仙第一次显露真颜。其中一张是张纪中抱着小花仙的照片,只见张纪中双手小心翼翼地托着女儿,双眼望着女……天津肖老师你道歉了,但是依然没有懂得激励和羞辱的区别EdvardMunch天津那个老师的事(链接:天津一老师训斥学生:你妈妈一个月挣多少钱啊?别怪我瞧不起你),我发现网上还是有不少人认为这个老师没问题,觉得她说了实话,实话……诗曼生日酒吧,玩嗨啦真是岁月不饶人,佘诗曼,今年已经46岁了,6月1日是她的生日,有媒体拍到尹正和向佐现身某酒吧,等众多友人,一起为阿佘庆祝生日,引来全网热议!一提起香港著名演员佘诗曼,知名……30年语文老师5000年的文学常识题,打印背熟了,3年考试不语文这个学科的学习不同于其它学科的学习,是需要知识量和积累量的一个学科,对于学生学习而言。语文一直以来就是非常重要的一个学习科目,成绩不佳的孩子,一般表现为两个知识量的缺失,第……ps怎么调像素(ps怎么调清晰度)今天这个方法掌握了之后,可以让我们手中的照片变废为宝。生活中,我们拍的照片情绪、构图、选景什么的都很好,但只有一点就是太模糊了!删了也太可惜了,这时候你可能会想:那有什么办法能……景深效果(PS如何通过蒙版制作景深效果?)景深效果(PS如何通过蒙版制作景深效果?)PS如何通过蒙版制作景深效果?景深效果是将主体之外的画面虚化的原理制作而成的,下面小编就来教大家操作的方法吧。1。当前导入……滚筒洗衣机(洗衣机是选滚筒的还是波轮的?)滚筒洗衣机(洗衣机是选滚筒的还是波轮的?)我们家里一般都会选择各种各样的家用电器,而其中洗衣机几乎是家庭必备的一种家用电器。可是对于洗衣机,大家会发现它有不同的种类。我们……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网