CUDA编程模型都改了!英伟达架构师团队详解Hopper为啥
编辑:LRS【新智元导读】最近老黄掏出的显卡核弹HopperH100可谓是风头无两,性能全面碾压老前辈。但除了800亿晶体管,Hopper架构也是完全重新设计的,一起看看架构里面还有啥细节?
在英伟达GTC2022大会上,老黄更新了服役近两年的安培微架构(Ampere),推出Hopper架构,并抛出一块专为超算设计、包含800亿个晶体管的显卡HopperH100,比老前辈A100显卡的540亿晶体管还要高出不少。
但光看名字和参数还不够,Hopper到底牛在哪?
最近英伟达的架构开发师们发布了一篇博客,深入讲解和分析了Hopper架构。文章作者包括英伟达首席GPU架构师MichaelAndersch,GPU架构组杰出工程师GregPalmer和RonnyKrashinsky,英伟达高级技术营销总监NickStam,高级开发技术工程师VishalMehta等核心开发成员。
Hopper牛在哪?
Hopper架构的名字来自GraceHopper女士,她被誉为计算机软件工程第一夫人、编译语言COBOL之母,她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者,也是第一位发现bug的人。
基于Hopper架构的英伟达HopperH100张量核心GPU已经是第九代数据中心GPU了,相比上一代安培架构的A100GPU,Hopper架构明显强悍了很多,不仅晶体管数量有明显提升,制作工艺也从7纳米提升到4纳米,为大规模AI和HPC提供了一个数量级的性能飞跃。
同时H100继承了A100的主要设计重点,提升了对AI和HPC工作负载的扩展能力,并在架构效率方面进行了大幅改进。
对于当今的主流人工智能和高性能计算模型,带有InfiniBand互连的H100可提供比A100强30倍的性能。
并且新的NVLinkSwitchSystem在针对一些大型计算工作负载任务,比如需要在多个GPU加速节点上进行模型并行化时,能够通过互联调整负载,可以再次提高性能。在某些情况下,性能能够在使用InfiniBand的H100基础上再增加两倍。
可以说H100GPU专为高性能计算和超大规模AI模型加速而生,AI模型的推理速度少说也能提升10倍。
Hopper芯片利用了Arm架构的灵活性,是一个完全重新设计、专为加速计算而设计的CPU和服务器架构。H100能够与英伟达GraceCPU搭配,借助超快英伟达chiptochip互联,可以提供高达900GBs的总带宽,比PCIeGen5还要快7倍。
在TB级数据的高性能计算下,和世界上最快的服务器相比,新设计能够提升10倍性能和30倍的总带宽。
开发人员总结了一个长长的H100GPU关键新特性列表。
首先H100有一个新的流式多处理器(SM,streamingmultiprocessor),性能和效率都有所提升。
新的第四代张量核心与A100相比,chiptochip的性能提升6倍,速度提升主要来自更快的SM,更多的SM数量,以及H100中更高的时钟频率。在每个SM上,与上一代16位浮点选项相比,TensorCores在同等数据类型上的MMA(矩阵乘积)计算速率是A100SM的2倍,使用新的FP8数据类型的速率是A100的4倍。稀疏性1功能利用了深度学习网络中的细粒度结构化稀疏性,使标准张量核心操作的性能提高了一倍。
新的DPX指令对动态编程算法的加速比A100GPU高7倍。在基因组学处理的SmithWaterman算法,以及用于在动态仓库环境中为机器人车队寻找最佳路线的FloydWarshall算法上验证后,证实了性能提升。
与A100相比,IEEEFP64和FP32的处理率在芯片间快了3倍,这是由于每个SM的clockforclock性能快了2倍,加上H100的额外SM数量和更高的时钟。
新的线程块集群功能能够以大于单个SM上的单个线程块的颗粒度对位置性进行编程控制。扩展了CUDA编程模型,为编程层次增加了一个层次,现在包括线程、线程块、线程块集群和网格。集群使多个线程块可以在多个SM上并发运行,以同步和协作方式获取和交换数据。
分布式共享内存允许在多个SM共享内存块上进行SM到SM的直接通信,用于加载、存储和原子学。
新的异步执行功能包括一个新的张量内存加速器(TMA)单元,可以在全局内存和共享内存之间有效地传输大型数据块。TMA还支持集群中线程块之间的异步拷贝。还有一个新的异步事务屏障,用于做原子数据移动和同步。
新的Transformer引擎采用了软件和定制的英伟达HopperTensorCore技术的组合,专门用于加速转化器模型的训练和推理。Transformer引擎能够智能管理并动态选择FP8和16位计算,自动处理每一层中FP8和16位之间的重铸和缩放,与上一代A100相比,在大型语言模型上的AI训练速度提升了9倍,AI推理速度提升了30倍。
HBM3内存子系统比上一代增加了近2倍的带宽。H100SXM5GPU是世界上第一个采用HBM3内存的GPU,提供领先于同级别的3TB秒的内存带宽。
50MBL2高速缓存架构缓存了大量的模型和数据集,在重复访问时减少了对HBM3的访问。
与A100相比,第二代多实例GPU(MIG)技术为每个GPU实例提供了约3倍的计算能力和近2倍的内存带宽。也是首次提供具有MIG级TEE的机密计算能力。支持多达七个独立的GPU实例,每个实例都有专用的NVDEC和NVJPG单元。每个实例都包括自己的一套性能监控器,可与NVIDIA开发人员工具一起使用。
新的机密计算(ConfidentialComputing)支持可以保护用户数据,抵御硬件和软件攻击,并在虚拟化和MIG环境中更好地隔离和保护虚拟机(VM)。H100实现了世界上第一个原生机密计算GPU,并以全PCIe线速向CPU扩展了可信执行环境(TEE)。
第四代NVLink在allreduce操作上提供了3倍的带宽,比上一代NVLink增加了50的通用带宽,多GPUIO的总带宽为900GB秒,操作带宽是PCIe第五代的7倍。
第三代NVSwitch技术包括驻扎在节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个GPU。
节点内的每个NVSwitch提供64个第四代NVLink链接端口,以加速多GPU连接。交换机的总吞吐量从上一代的7。2Tbits秒增加到13。6Tbits秒。新的第三代NVSwitch技术还为多播和NVIDIASHARP网内还原的集体操作提供了硬件加速。
新的NVLinkSwitch系统互连技术和基于第三代NVSwitch技术的新的二级NVLinkSwitches引入了地址空间隔离和保护,使多达32个节点或256个GPU能够通过NVLink以2:1的锥形树状拓扑连接起来。
这些连接的节点能够提供57。6TB秒的alltoall带宽,并能够提供惊人的FP8稀疏AI计算的exaFLOP。PCIeGen5能够提供128GB秒的总带宽(每个方向64GB秒),而第四代PCIe的总带宽为64GB秒(每个方向32GB秒)。PCIeGen5使H100能够与最高性能的x86CPU和SmartNICs或数据处理单元(DPU)连接。
更多技术细节可以访问原文查看。总而言之,H100就是更快、更高、更强!(更贵)
参考资料:
https:developer。nvidia。comblognvidiahopperarchitectureindepth
生物大灭绝1生物大灭绝指的就是短时期内,大范围内,生物集体灭绝或基本灭绝的事件。目前在地球发展史中,发生过很多次的生物集群灭绝,但最为人知的影响最大的有五次大规模的生物大灭绝,严格意义上说……
2023年洛阳目标GDP增长7大河报豫视频记者李韶萌1月4日上午,洛阳市第十六届人民代表大会第一次会议开幕,洛阳市人民政府市长徐衣显在大会上作政府工作报告。大河报豫视频记者了解到,根据政府工作报告,2……
长城汽车10月销量坦克哈弗同比增长,WEY欧拉等下滑文凌清图车宇世界、网络温馨提示:车宇世界,只做最真实的车评。本文为【车宇世界销量评0216之10月销量03】系列文章,为车宇世界原创,转载请注明,侵权必究。11月4……
一家人,什么最重要?什么是家?家,是我们坚强的后盾,家,是我们心灵的港湾,家,是我们人生出发点。世界上自幸福的事情,莫过于一家人其乐融融,哪怕只是简单地吃个饭,……
这样的朋友,趁早远离吧现在人们总是提倡精简社交,这句话不无道理。越长大我对朋友这个词的定义越狭窄,小时候,我把认识几个月,吃过几次饭,玩过几次的人就叫朋友;我把在单位,天天一起吃饭、唠嗑,周末……
环球小姐张紫薇,压轴深圳时装周RUBYFANG秀场2022年10月25日至11月3日,为期10天的深圳时装周2023春夏系列在深圳欢乐海岸举办,近70场国内外高端、知名品牌纷呈亮相走秀T台,众多一流设计师品牌齐聚深圳。10月2……
惊喜满满!华为手表将支持慢阻肺风险筛查,科技与狠活啊在11月4日的2022年HDC开发者大会上,给我们带来满满的惊喜,也展现了什么是科技与狠活的实力,带来了新款六色小折叠屏幕手机,还带来了能够十指操控的一体机!现在还有华为手表带……
新星阅兵国米完败于拜仁南大王老铁为蓝黑军团指路国米02不敌拜仁。在座次已定的前提下,输球无关痛痒,但有些事,还是让国米倍感挫折。两队都进行了轮换,年轻人和新星颇多出场,这场新星阅兵里,在下一代的竞争中,拜仁对国……
Nature如何激励受挫的人?受挫影响社交奖赏的新神经环路机社交回避表现在一系列精神疾病中,其原因从对社交接触不感兴趣到社交参与者引发的负面情绪状态。虽然社会回避的原因各不相同,但过去的社会创伤可能导致严重的社会回避,这反映了社会奖赏的……
VFZ幻彩流晶无线充氛围灯体验,当七彩夜灯遇到无线充电器现在手机支持无线充电的还是比较多的,毕竟充电方便,省去了插拔线的麻烦的同时,还省去了杂乱的线管缠绕,好用又美观。但是我发现大多数的无线充电器都做的比较的丑,以实用为主。直……
家风和家族传承生活分享原创398篇书接上回,中年女性同学聚会能聚起来本来就很难,能聊到一起更不多,能号召起来也不多,还能够保持坦诚,每一次都觉得意犹未尽,我也在想,我们网络上大多看到的……
颜值至上,国产手表OPPO华为小米多维度横评,谁更值得入手?年底临近,大家的各种购买需求高涨,对于很多朋友来说,无论是什么样的产品都需要拥有过硬的颜值,才符合第一眼缘,特别是在近年来走俏的智能手表市场中,各家厂商为了彰显自己不俗的设计功……
情商低的人如何提升高情商?请用一句话来概括自己的艰辛1、与人交往时记住这两点:第一,别人都是重要的;第二,自己也是很重要的,以平等的观点看待他人有利于你从容地做事。2、想象……
华为老总任正非四谈衡水中学后,让衡水之争消停了不少华为老总任正非四谈衡水中学后,让衡水之争消停了不少阚兆成泰安家校共育2022121707:21发表于山东华为最困难时,任正非为何四谈衡水中学?2019年,对华……
县委大院金句频出,学习!做不到的就不要忽悠,稳扎稳打。求人不丢人,求不到人才丢人。好的成绩不一定都是因为我,但出了问题,算到头,都是我的。心中有党,心中有民,心中有责,心中有戒。……
加拿大突然掀桌子,后续如何发展闭门会议,会议秘密等级很高,据说是研究与中国脱钩的事。面对中国势不可挡的发展势头,美国已经说动了大部分西方国家对我们进行封锁,有些国家已经对中国下手了。01西方惊醒……
北京现代发布2025向新计划再启20年新征程11月5日,北京现代用一场充满了青春、激情、活力的Party,庆祝20周岁生日。虽然刚过及冠之礼,北京现代早已在中国汽车史留下现代速度等诸多传奇,伴随1100万用户走过青春奋斗……
新生代奶爸带娃如演戏,孩子带得好不好,全靠演技说起带娃,无论奶爸还是宝妈,个个都面露痛苦神色,所有的体会只有一个字:累!最让爸妈们心累的,不仅仅是那精力充沛、像永动机一样的皮猴子;更有那让人跌脚捶胸、心急如焚的拖沓王……
聪明对治儿童拖延症作者简介:王萱,作家,诗人。代表作:《父亲的夜来香》,《那一抹笑影》,《放生》。作品见于核心期刊,多篇入选各类国家级、年度选本。聪明对治儿童拖延症文王萱母爱这……
睡眠账户如何规避小额管理费?杭州金女士意外翻出了一张15年前的存折,余额显示为202元,结果发现因管理费如今账户上只剩88。72元。这一报道日前登上热搜,引发网友热议。对于银行的收费政策有网友提出质疑,但……
巨头遇挫热潮退去元宇宙发展何去何从2022年,是元宇宙在互联网语境里祛魅的一年,以Meta、微软为代表的头部公司在元宇宙发展方面纷纷陷入困境。站在科技时代的拐点处,元宇宙这场变革究竟能否成为下一代互联网和新一轮……
别人去湖南农大看红枫,而我一直以来,我们都认为湖南农大是最有田(农)园(业)气(特)息(色)的学校。。。。。。去农大的活动当然就是看油菜花摘草莓这些城郊农家乐项目。没想到这几年,农大画风瞬间就转变……
王思聪现身长白山滑雪场,多名年轻女网红随行,网友好大的排场众所周知,王思聪作为内地最高调的富二代,日常动态始终都是网友们关注的焦点。不久前,他刚结束了与网红慎婕的恋情,随后立刻恢复了以往花花公子的形象,不禁让人感慨,王校长恋爱与单身时……
NBA三连FMVP与三连MVP,哪个成就更难达成?深度解析两NBA联赛的竞技水平,应该称得上是全世界篮球的天花板,这也让NBA充满魅力,30支NBA球队都为了总冠军而努力,在冲冠的过程中,诞生了许多耳熟能详的超级球星。乔丹、科比、詹姆斯……