教育房产时事环球科技商业
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

国内科学家团队发布超大规模AI预训练模型

  北京智源人工智能研究院发布四个超大规模人工智能预训练模型,统称为“悟道1.0”,涵盖中文语言、多模态、认知、蛋白质预测四个领域,是帮助国内企业、机构开发人工智能应用的大型基础设施。
  “悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。
  智源研究院院长黄铁军教授介绍,近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,是必然趋势。
  智源研究院2020年10月启动“悟道”项目,研发规模大(主要体现为参数量)、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型,特别是注重中文语料的采集和训练。
  四大模型:中文、多模态、认知、蛋白质预测
  “悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍,“悟道1.0”先期启动了4个大模型的研发。
  以中文为核心的预训练语言模型“悟道·文源”目前模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3齐平。
  其目标是构建完成全球规模最大的中文预训练语言模型,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。
  超大规模多模态预训练模型“悟道·文澜”,目前模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。
  其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。
  该模型已对外开放API,并有两款小应用,可以为用户上传的照片配文,或搭配最合拍的音乐。
  面向认知的超大规模新型预训练模型“悟道·文汇”,目前参数规模达113亿,在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试,可以应用在电商行业自动撰写商品文案等场景。
  其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型,搭建预训练模型体系,从认知角度研究通用人工智能,发展模型基于逻辑、意识和推理的认知能力。
  超大规模蛋白质序列预测预训练模型“悟道·文溯”,已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。
  其目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。
  WuDaoCorpora:全球最大中文语料数据库
  在科研方面,“悟道1.0”取得了多项国际领先的AI技术突破,与现有同类算法及模型相比提升了训练速度,提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库WuDaoCorpora。
  WuDaoCorpora数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。
  WuDaoCorpora的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。
  此外,WuDaoCorpora数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。
  该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。
  【来源:cnBeta.COM】

天文学家报告有史以来记录到最大一组神秘快速射电暴据外媒NewAtlas报道,一个巨大的新数据集可能很快有助于揭开快速射电暴(FRB)的宇宙之谜。在几周的时间里,天文学家从一个研究最充分的FRB来源中检测到了1600多个新信号,基研究称广泛应用于自闭症治疗的催产素没有显示出益处据外媒报道,一项多中心研究发现,催产素是安全的,但对提高自闭症儿童的社交能力没有效果。根据10月13日发表在新英格兰医学杂志上的一项大型全国性研究,催产素是一种天然存在的激素,在大科学家开发EDRR工艺将黄金回收率提高到84目前黄金的传统回收率为64,不过研究发现最新基于氯化物的工艺可将回收率提高到84。黄金是世界上最受欢迎的金属之一。它具有可塑性导电性和非腐蚀性,被用于珠宝电子甚至太空探索。但传统的考古学家在以色列亚夫纳遗址发现中世纪葡萄酒厂废墟在以色列亚夫纳的一个遗址,考古学家发现了世界上已知的最大的酒窖群,可以追溯到拜占庭时期。被称为Yavne的以色列考古遗址可以追溯到青铜时代晚期和铁器时代晚期,被认为是罗马人公在元7科学表明可利用电动系绳进行无燃料的航天器推进如何在没有推进剂的情况下推进航天器?使用电动系绳,此装置是连接两个航天器的长而强的导体。当直流电被施加到系绳上时,系绳会对航天器施加一个力,使其加速或制动。这种系绳可用于执行无燃料全球首个!国产遥感卫星综合定标场试运行成功10月12日,由宁夏中卫市人民政府主办北京航天驭星科技有限公司承办武汉大学协办的ldquo2021云天大会中国商业航天产业基础设施建设与运营高端峰会暨中卫遥感卫星定标与真实性检验场Astra已找出之前火箭侧向盘旋并发射失败背后的原因小型卫星发射商Astra表示,它已经确定了8月份奇怪的发射失败背后的罪魁祸首,这导致该公司的火箭在起飞后立即侧向盘旋,然后短暂地爬上天空最后在人工干预下宣布任务结束。在实施了一些设NASA将詹姆斯韦伯太空望远镜运达圭亚那据外媒报道,詹姆斯韦伯太空望远镜(JWST)在经过1500英里(2400公里)16天的旅程后终于于当地时间周二抵达法属圭亚那。它将从这个南美洲的目的地发射到太空。NASA现在让我们来自银河系中心奇怪的无线电信号可能表明有一类新的恒星物体一个与银河系中心方向一致的可变信号正在使科学家们感到兴奋。这些无线电波不符合目前所理解的可变无线电源的模式,并可能表明有一类新的恒星物体。这个新信号最奇怪的特性是它具有非常高的偏振普京削减俄罗斯太空预算并表示他期待更好的结果俄罗斯计划在未来三年(2022年至2024年)内削减航天活动的资金,每年的削减将达到约16。2022年,用于太空活动的国家预算将被设定为2100亿卢布(29亿美元),比前一年削减4欧空局将在NASA重返月球计划中发挥重要作用据外媒报道,欧空局(ESA)在人类重返月球的过程中发挥着重要作用。几个月后,美国宇航局(NASA)将从肯尼迪航天中心发射ArtemisI任务。这项非载人任务将搭载NASA的猎户座飞
SpaceX星际飞船原型SN20完成两次静态点火测试据国外媒体报道,当地时间周四晚上,美国太空探索技术公司SpaceX的星际飞船原型SN20完成了两次静态点火测试。目前,SpaceX正在开发星际飞船。未来,该公司将用星际飞船将人类和科学家在25亿年前的红宝石中发现古代生命的证据据CNET报道,一颗古老的红宝石和其中的石墨,正在揭示数十亿年前地球上生命的故事。由加拿大滑铁卢大学的地质学家ChrisYakymchuk领导的一个研究小组分析了一颗来自格陵兰岛的美国宇航局离ArtemisI计划首次发射又近了一步美国宇航局本周证实,有朝一日能让所有宇航员都能到达月球,也许还能到达更远的地方的猎户座太空舱已被吊起并放置在其巨大的SLS火箭上,准备发射。该太空舱被提升到空中,然后安装在载具装配研究发现一夜好眠可能降低婴儿肥胖的风险一项新的研究表明,睡得多整夜醒来少的新生儿超重的风险较低。科学家们早就提出,晚上有足够的睡眠对保持健康至关重要。然而,很少有研究强调在生命的头几个月里有足够的睡眠的必要性。来自布里2050年前的罗马古墓给耐用和可持续建筑材料带来启示了解古代材料的形成和过程可以让研究人员了解为未来创造耐用可持续建筑材料的新方法。罗马的CeciliaMetella墓最古老建筑之一,提供了可以启发现代建筑的见解。混凝土在使用几十年NASA办挑战赛让学生设计挖掘运输月球土壤的机器人美国宇航局寻求年轻的工程师帮助设计一个新的机器人概念,用于月球上的挖掘任务。Lunabotics青少年竞赛向美国公立和私立学校的K12学生以及家庭学校的学生开放。该竞赛是美国宇航局激烈的象牙偷猎导致非洲象发生了快速的无牙进化一项新报告指出,在莫桑比克内战期间(19771992年),密集的象牙偷猎导致了非洲雌性大象在数量急剧下降的情况下迅速进化出无牙的表型,进而使其在面对偷猎时更容易生存。这些发现揭示了解开百年之谜天文学家找到了高能宇宙射线的来源大约一个世纪前,科学家们开始意识到,他们在地球大气层中探测到的一些辐射并非源自本地。这最终催生了宇宙射线的发现,高能质子和原子核被剥夺了电子并加速到相对论速度(接近光速)。然而,围研究发现利用藻类净化后的废水可被用于水产养殖目前,为了净化废水,抗菌剂和紫外线是常用的措施之一。然而,根据一项新的国际研究,利用海藻可能是一种更环保和节能的替代方法,所产生的水足够干净,可用于水产养殖。人们已经知道,藻类可以联系上了!天问一号安全度过首次日凌恢复科学探测10月22日,据中国探月工程公众号消息,ldquo天问一号rdquo环绕器和ldquo祝融号rdquo火星车安全度过首次日凌,恢复科学探测工作。2021年9月下旬开始,地球火星运行研究显示欧洲人在1000年前就已经登陆美洲哥伦布不是第一个到达美洲的欧洲人。维京人早在几个世纪前就到达了那里,尽管具体时间一直不清楚。现在,一个国际科学家小组表明,欧洲人在公元1021年已经在美洲活动。维京人乘坐他们标志性