教育房产时事环球科技商业
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

moe是什么意思(moe是什么意思中文人名)

  编辑:好困 桃子【新智元导读】AI大模型「环球影城」正式开业!汽车人、霸天虎共集结,这次不是为了赛博坦,也不是元宇宙,而是为了疯狂争夺「火种源」。现实世界中,AI巨头在也在为这一生命之源——大模型展开了无尽的争夺战 。
  AI大模型领域的「环球影城」正式开业!
  汽车人、霸天虎集结,这次不是为了赛博坦,而是为了疯狂争夺「火种源」。
  现实世界中,AI巨头们在也在为这一「生命之源」——大模型展开争夺战,进行巅峰对决。
  5300亿参数,烧了4480块英伟达GPU,威震天-图灵(MT-NLG)可以说是当前最大的语言模型。此外,GPT-3有1750亿参数,浪潮「源1.0」2457亿参数...
  自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。
  然而,这并不是终点,争夺「火种源」角逐还在继续。
  那么,这些AI巨头到底在争什么,在探索什么?
  大模型究竟是否是一条正确的道路?
  下一个模型有多大? ∞
  从国外来看,2018年,谷歌提出3亿参数BERT模型惊艳四座,将自然语言处理推向了一个前所未有的新高度。
  可以说,谷歌最先开启了大模型一股热潮。
  紧接着,OpenAI在2019年初推出GPT-2,15亿参数,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。
  还有英伟达威震天(Megatron-LM)83亿参数,谷歌T5模型110亿参数,微软图灵Turing-NLG模型170亿参数。
  这些模型一次次不断地刷新参数规模的数量级,而2020年却成为这一数量级的分界线。
  大火的GPT-3,1750亿参数,参数规模达到千亿级别,直逼人类神经元的数量。
  能作诗、聊天、生成代码等等,无所不能。
  就在近日,微软和英伟达联手发布了Megatron-Turing自然语言生成模型(MT-NLG),5300亿参数。
  号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。
  除了千亿规模的稠密单体模型,还有万亿规模的稀疏混合模型。
  如果将单体模型比作珠穆朗玛峰,那么混合模型就是喜马拉雅山脉其他的小山峰。
  谷歌在今年年初推出了1.6万亿参数的Switch Transformer。而智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录。
  好一副「百家争鸣」之势。
  为什么会这样?一句话,大模型是大势所趋,更是必争的高地!
  如今大模型的这种盛世,与深度学习时代极其相似。
  就好比十几年前深度学习的崛起一样,国内外AI巨头看到了这个技术的未来,于是纷纷入局于此,各种各样深度学习的模型不断涌现。
  现在,大模型更迭速度只会越来越快。
  NLP单体模型大PK
  那么,为什么我们要比较这几个模型呢?
  在讨论这个问题之前,需要先搞懂大模型都有哪些分类。
  比如说,从模型架构角度:单体、混合;功能角度:NLP、CV、对话等等。
  其中,谷歌「Switch Transformer」采用Mixture of Experts (MoE,混合专家) 模式将模型进行了切分,其结果是得到的是一个稀疏激活模型。虽然节省了计算资源,但是精度却很难提高。
  目前来说,自然语言处理领域单体大模型的顶流是:「GPT-3」、「MT-NLG」以及「源 1.0」。
  https://arxiv.org/pdf/2110.04725.pdf
  不过,中文和英文的模型之间区别还是很大的。
  在自然语言理解方面,由于分词方式不同、同一词组不同歧义以及新词汇等方面挑战,所以中文训练的难度更高。
  例如分词难点:中国科学技术大学;中国\科学技术\大学;中国\科学\技术\大学。这三种不同的分词形式,表达的意思有着天壤之别。这还仅仅是其中之一。
  因此,训练中文NPL模型的训练难度要比同量级英文模型难度更高。
  要做就做最大的
  英文的高质量文本数据集可谓是五花八门。
  有包含HackerNews、Github、Stack Exchange、ArXiv甚至还有YouTube字幕的The Pile;有包含了超过50亿份网页元数据的数据平台Common Crawl;甚至还可以用Reddit论坛的内容来进行训练。
  就拿The Pile来说吧,其中包含了825GB的多样化开源语言建模数据,由22个较小的、高质量的数据集合组成。
  GPT-3采用了规模超过292TB,包含499亿个token的数据集。
  Tokens (亿)
  Epochs
  有效规模(TB)
  Common Crawl (www)
  410.00
  0.44
  180.40
  WebText (Reddit links)
  19.00
  2.90
  55.10
  Books2 (Libgen or similar)
  55.00
  0.43
  23.65
  Books1/BookCorpus (Smashwords)
  12.00
  1.90
  22.80
  Wikipedia (facts)
  3.00
  3.40
  10.20
  总计
  499.00
  292.15
  MT-NLG则使用了15个数据集,总共包含3390亿个token。
  相比起来,中文的训练数据就匮乏得多了。
  最大的开源项目CLUECorpus2020只包含了100GB的高质量数据集。
  https://github.com/CLUEbenchmark/CLUECorpus2020
  为了获得高质量的数据集, 「源1.0」的团队开发了一套大数据过滤系统 Massive Data Filtering System (MDFS),其中包括数据收集、粗略过滤、精细过滤三部分。
  数据预处理流程图
  数据主要来自Common Crawl、搜狗新闻(SogouN)、搜狗互联网语料库版本(SogouT,2016)、百科数据和书籍数据。
  待清洗的原始数据
  在对原始语料进行粗筛选之后,团队又训练了一个基于Bert的模型来对高质量、低质量和广告内容进行分类,并辅以人工筛查。
  精细过滤之后的高质量语料大小
  最后终于得到了5TB高质量中文数据集,其中包括近5年中文互联网的全部内容和近2000亿个词。
  计算效率up!
  有了数据集,也构建好了模型,现在就可以来谈一谈训练了。
  对于最新的「MT-NLG」,由560台DGX A100服务器提供动力,其中每个DGX A100都有8个NVIDIA A100 80GB张量核心图形处理器,也就是4480块A100显卡。每个GPU的算力直接飙到每秒113万亿次浮点运算。
  GPT-3的训练则是在超过28.5万个CPU核心以及超过1万个GPU上完成,GPU在训练过程中达到每秒2733亿次浮点运算。
  而「源1.0」只用了2128张GPU,并在短短的16天就完成了训练。
  这又是如何做到?
  「源1.0」的团队创新性地采用了张量并行、流水线并行和数据并行的三维并行策略。
  张量并行
  在张量并行策略中,模型的层在节点内的设备之间进行划分。Transformer结构在进行前向计算和反向传播时,注意力层和多层感知机 层的张量将会被按行或列进行拆分。输入端的张量首先会发送给每个加速器,在加速器中各张量独立进行前向计算。
  流水线并行
  流水线并行将 LM 的层序列在多个节点之间进行分割,以解决存储空间不足的问题。每个节点都是流水线中的一个阶段,它接受前一阶段的输出并将结果过发送到下一阶段。如果前一个相邻节点的输出尚未就绪,则当前节点将处于空闲状态。
  数据并行
  采用数据并行时,全局批次规模按照流水线分组进行分割。每个流水线组都包含模型的一个副本,数据在组内按照局部批次规模送入模型副本。
  从结果上看,「源1.0」的训练共消耗约4095PD(PetaFlop/s-day),相较于「GPT-3」的3640PD,计算效率得到大幅提升。
  在零样本和小样本学习「霸榜」
  为什么一说大模型就要提这俩货?
  原因很简单,人类可以仅通过一个或几个示例就可以轻松地建立对新事物的认知,而机器学习算法通常需要成千上万个有监督样本来保证其泛化能力。
  而是否拥有从少量样本中学习和概括的能力,是将人工智能和人类智能进行区分的明显分界点。其中,零样本学习更是可以判断计算机能否具备人类的推理和知识迁移能力,无需任何训练数据就能够识别出一个从未见过的新事物。
  简单来说,零样本学习,就是训练的分类器不仅仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分;小样本学习,就是使用远小于深度学习所需要的数据样本量,达到接近甚至超越大数据深度学习的效果。
  不管是「GPT-3」还是「MT-NLG」,都在强调自己在这两方面的学习能力。
  当然,二者的区别在于,作为前任SOTA的「GPT-3」被「MT-NLG」以微弱的优势「干」掉了。
  「GPT-3」在LAMBDA和PIQA测试集上取得的成绩
  「MT-NLG」在LAMBDA和PIQA测试集上取得的成绩
  「源1.0」虽然没有办法直接和二者进行对比,不过在中文最大规模的语言评估基准——CLUE上的成绩还是很有说服力的。
  在ZeroCLUE零样本学习榜单中,「源1.0」以超越业界最佳成绩18.3%的绝对优势遥遥领先。在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军。
  在FewCLUE小样本学习榜单中,「源1.0」获得了文献分类、商品分类、文献摘要识别、名词代词关系等4项任务的冠军。
  刷榜终究是刷榜,虽然成绩很好,但实战起来还是很容易被人类「一眼看穿」。
  不过,其实从成绩单上的分数也能看出,不管是英文还是中文的模型,和人类比起来差距还是很大的。
  尤其是在情感理解和话题表达方面这类没有特定规则的情景下,比如作诗、写故事等等。
  大模型,去哪?
  AI巨头竞相追逐模型规模的新高度,这自然带来一个灵魂之问:他们在探索什么?
  当前,语言模型的训练已经从「大炼模型」走向「炼大模型」的阶段,巨量模型也成为业界的焦点。
  近日,Percy Liang,李飞飞等一百多位学者在发表的 200 多页的研究综述 On the Opportunities and Risk of Foundation Models 中阐述了巨量模型的意义在于「突现和均质」。
  论文中,他们给这种大模型取了一个名字,叫基础模型(foundation model),其在NLP领域表现出了强大的通用性和适用性。
  目前AI研究的涌现性和同质化特征
  构建越来越大的模型,真的就会越来越好吗?
  从ELMo到Bert再到之后的GPT-3等一系列模型,预训练模型的性能一直在提升,这是一个非常强的证据。
  而现在威震天-图灵的参数量是5300多亿,可见,当前模型的参数规模可能也没有达到通用人工智能所要求的水平。
  所以说,更大的模型依旧是刚需。
  那么,构建越来越大的模型,真的能够通向通用人工智能(AGI)吗?
  OpenAI 的无监督转化语言模型 GPT-3,展现出了从海量未标记数据中学习,且不限于某一特定任务的「通用」能力。
  因此让许多人看到了基于大规模预训练模型探索通用人工智能的可能。
  坦白讲,我们开始对大模型认识不太清晰的时候,认为它只是用来作首诗,对个对子,但其实这些并不是大模型的魅力所在。
  大模型真正的魅力在于「不可知」,而在于对未来的一个探讨。
  一位清华教授曾表示,GPT-3已经越来越接近人类水平,但它有一个「阿喀琉斯之踵」。
  GPT这说明,GPT-3很聪明,但它仍有一些认知局限——没有常识。
  自然语言处理研究员、康奈尔大学数据科学家Maria Antoniak表示,「谈到自然语言,更大的模型是否是正确的方法是一个悬而未决的问题。
  虽然目前一些最好的基准性能得分来自大型数据集和模型,但是将大量数据倾倒到模型中的回报是不确定的。」
  这足以证明,对大模型进行探索是一个持续不断的过程。
  全球AI巨头争的是,探索的是大模型未知领域的「处女地」,可以说是面向通用智能最高阶智能的探索。
  其实,不仅仅是科学探索,它必然会产生一种催化效应,探索的成果也会带动CV、OCR、语音等领域的发展。
  因为,最终的智能产生是在这基础之上建立的。
  我是谁?我在哪?我将要去向何方...
  这对于人类来说是一直探索的哲学问题,那么机器会如何回答?
  当我们输入一些命题时,它能够给出很多灵感式答案。
  「源1.0」便是一个非常好的开始,但未来的路还很长。
  参考资料:
  https://arxiv.org/pdf/2005.14165.pdf
  https://arxiv.org/pdf/2004.05986.pdf
  https://arxiv.org/pdf/2110.04725.pdf
  https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/
  https://easyai.tech/ai-definition/tokenization/
  https://lifearchitect.ai/models/#contents

玛莎拉蒂事件全过程(醉驾玛莎拉蒂撞宝马现场图全过程)玛莎拉蒂事件全过程(醉驾玛莎拉蒂撞宝马现场图全过程)7月3日晚,谭某明醉酒驾驶玛莎拉蒂发生车祸,致使一辆宝马后排两名乘客当场死亡,谭某明等4人受伤。次日,谭某明等三人因涉嫌危害公共谭明明案判决结果(玛莎拉蒂撞宝马案宣判)谭明明案判决结果(玛莎拉蒂撞宝马案宣判)河南玛莎拉蒂撞宝马致死案宣判,涉事女司机谭明明犯以危险方法危害公共安全罪,被判无期。车内另两人获刑3年,缓刑3年,3人共计赔偿千万。据悉,宝06超女冠军(最惨超女冠军)06超女冠军(最惨超女冠军)安又琪的学历水平不高,初中毕业就不再念书。不过这不是她混不动娱乐圈的原因,毕竟圈里学历低但人红的也不少。不再上学的安又琪决定北漂,到北京去实现自己的音乐超级女声2006(06届过气超女重聚)超级女声2006(06届过气超女重聚)作为中国内地的选秀鼻祖,超级女声曾是无数女孩心中难忘的回忆,从2004年以来,一举捧红了许多偶像。十余年后,那些当初站在同一起跑线的女孩们,情花西子老板(花西子品牌公关案例分析)花西子老板(花西子品牌公关案例分析)花西子品牌于2017年3月8日诞生于中国杭州,是一个以东方彩妆,以花养妆为理念的彩妆品牌。花西子探索中国千年古方养颜智慧,针对东方女性的复制特点米奇和朋友找字母(乐高正式公布米奇与朋友系列五款新套装)米奇和朋友找字母(乐高正式公布米奇与朋友系列五款新套装)乐高正式发布了米奇和朋友系列新套装,让我们一起来看下这些套装的官方图片吧。有一些看起来还是蛮有趣的。这些套装已经在乐高在线商斯柯达速派德系车性价比之王(德系性价比之王全新速派)斯柯达速派德系车性价比之王(德系性价比之王全新速派)外形方面,新款速派采用了家族化的设计语言。这款车上的每一处变化都能感受到设计师的匠心用心,比如纤细的前大灯设计。前大灯与L型尾灯越南中国(中国广州对越南水产品的进口需求大增)越南中国(中国广州对越南水产品的进口需求大增)诸多中国广州企业和商人有意采购越南的水产品。在当前新冠肺炎疫情在多个省市扩散蔓延,给越南供应链货运等方面造成重大影响的背景下,这对越南去越南要签证吗(越南签证种类,如何办理,如何避开坑)去越南要签证吗(越南签证种类,如何办理,如何避开坑)大家好,我是百万哥,一人闯越南三年了。今天我们聊一下越南签证,希望你把这篇文章看完,因为对你应该有用来越南,一共有21种签证,但爱德华八世(爱德华八世和辛普森夫人的传奇爱情故事)爱德华八世(爱德华八世和辛普森夫人的传奇爱情故事)德德华八世和辛普森夫人的传奇爱情故事,直到现在在欧洲还被广为流传。在不列颠近千年的历史当中,有一位国王主动退位,退位的原因竟然是为腾邦全球商品交易中心(选择腾邦全球商品交易中心的十大理由)腾邦全球商品交易中心(选择腾邦全球商品交易中心的十大理由)特邀嘉宾云团超级投资俱乐部团长陈伟先生开始前,先做一下本人自我介绍我是云团超级投资俱乐部的创始人我做这个行业大概从16年开
玻尿酸哪里的好(玻尿酸哪里效果好)在颜值即正义的当下,医美市场从来不缺各式各样的火热项目改善松软下垂的热玛吉,提升面部肌肉的肉毒素针,让你额头饱满的童颜针,局部精雕的埋线提升,自体脂肪填充泪勾似乎每隔一段时间,小红弘扬中华传统美德(学习模范精神,弘扬传统美德)弘扬中华传统美德(学习模范精神,弘扬传统美德)学习模范精神,弘扬传统美德数学与信息科学学院红色足迹寻访队参观新乡好人馆为大力弘扬凡人善举身边好人精神,将社会主义核心价值观内化于心,艾梅柏希尔德(德普前妻艾梅柏希尔德得女)艾梅柏希尔德(德普前妻艾梅柏希尔德得女)1905电影网讯7月2日,艾梅柏希尔德通过个人社交账号,对外宣布自己于4月8日升格当妈,并用已故母亲的名字为女儿取名为乌娜佩奇希尔德(Oon琳琅海湾(广东最美的十大海湾来了)琳琅海湾(广东最美的十大海湾来了)广东省地处中国大陆最南部。东邻福建,北接江西湖南,西连广西,南临南海,珠江口东西两侧分别与香港澳门特别行政区接壤,西南部雷州半岛隔琼州海峡与海南省卡农小提琴曲(钢琴和小提琴合奏)卡农小提琴曲(钢琴和小提琴合奏)一般我们听到的都是以小提琴作为主奏,大提琴作为陪衬的D大调卡农,今天,我们来欣赏以小提琴作为主奏乐器,钢琴为它伴奏的一个版本。依旧柔美,多了一份浓厚苹果电脑玩游戏怎么样(苹果电脑一体机玩游戏怎么样)金磊发自凹非寺量子位报道公众号QbitAI苹果M1芯片火了,各种评测可以说是刷爆全网。除了CPUGPU等性能指标外,国外一些极客朋友们,也陆续展开了一些好(zuo)玩(yao)的测什么牌子笔记本好(哪种笔记本电脑性价比高)空闲时间约上三五老铁一起坐下开黑,放肆战斗,是一件再爽不过的事情了。如果是玩鬼泣4之类的大型3D游戏就是需要游戏本才可以玩得痛快。但产品的搭载的配置越高,内存越大,价格也就相应越贵生姜治疗脱发小窍门(生姜能治脱发?)生姜治疗脱发小窍门(生姜能治脱发?)钱江晚报小时新闻记者刘千我的头发,它在脸盆里在地板上在卫生间里,就是不在我的头上。这是一个22岁男生的脱发独白,也是当代年轻人普遍有脱发困扰的缩甲状腺肿块(甲状腺有结节也要忌口?)甲状腺肿块(甲状腺有结节也要忌口?)医生,前两天我去医院检查的时候,发现自己的甲状腺有结节那我是不是需要忌口呀,有没有什么不能吃的食物?前两天一个患者来医院进行检查的时候,向我提出养老金个人缴纳比例(缴纳比例有区别吗?)养老金个人缴纳比例(缴纳比例有区别吗?)不同行业的养老保险,缴纳的比例是有区别吗?我们说这个是没有任何区别的。因为养老保险的缴费比例,对于任何行业,任何单位,任何企业,甚至是机关事浸泡式英语(珠海的全日制浸泡式英语好吗)浸泡式英语(珠海的全日制浸泡式英语好吗)珠海位于我国华南沿海,环境优美,景色宜人。在竞争日益激烈的今天,我们急需提升自己的核心竞争力。随着全球一体化的纵深发展,我国对外交往密切,语