在昨晚的GTC演讲中,英伟达CEO宣布了一系列的重磅芯品,当中不但包括了为中国专门准备的,基于H100改版而来的H800芯片。同时,公司还宣布了为生成式AI而准备的产品。 在这次演讲中,黄仁勋还带来了加速2nm设计的计算光刻等一系列产品,现在我们综合如下,与读者分享。 将旗舰H100调整为H800,出口到中国 据路透社报道,主导人工智能芯片市场的美国半导体设计公司Nvidia已将其旗舰产品修改为可以合法出口到中国的版本。 美国监管机构去年制定了规则,禁止Nvidia向中国客户销售其两款最先进的芯片,即A100和更新的H100。此类芯片对于开发生成式人工智能技术(如OpenAI的ChatGPT和类似产品)至关重要。 路透社在11月报道称,Nvidia设计了一款名为A800的芯片,该芯片降低了A100的某些功能,使A800可以合法出口到中国。 周二,该公司证实它已经开发出类似的H100芯片的中国出口版本。阿里巴巴集团控股、百度公司和腾讯控股等中国科技公司的云计算部门正在使用这款名为H800的新芯片,英伟达发言人说。 美国监管机构去年秋天实施了规则,以减缓中国在半导体和人工智能等关键技术领域的发展。 围绕人工智能芯片的规则强加了一项测试,禁止那些具有强大计算能力和高芯片到芯片数据传输率的芯片。在使用大量数据训练人工智能模型时,传输速度非常重要,因为较慢的传输速度意味着更多的训练时间。 中国一位芯片行业消息人士告诉路透社,H800主要将芯片到芯片的数据传输速率降低到旗舰H100速率的一半左右。 Nvidia发言人拒绝透露面向中国的H800与H100有何不同,只是我们的800系列产品完全符合出口管制法规。 突破计算光刻,为2nm芯片制造奠定基础 在英伟达这次GTC大会上,下手ASML、TSMC和Synopsys突破计算光刻,助力行业跨越物理极限是另一个值得关注的亮点。 NVIDIA表示,将加速计算带入计算光刻领域,使ASML、台积电和Synopsys等半导体领导者能够加速下一代芯片的设计和制造,正如当前的生产流程已接近物理学的极限一样使成为可能。 英伟达在新闻稿中指出,用于计算光刻的全新NVIDIAcuLitho软件库被世界领先的晶圆代工厂台积电和电子设计自动化领导者Synopsys集成到其最新一代NVIDIAHopper架构GPU的软件、制造流程和系统中。设备制造商ASML在GPU和cuLitho方面与NVIDIA密切合作,并计划将对GPU的支持集成到其所有计算光刻软件产品中。 这一进步将使芯片具有比现在更细的晶体管和电线,同时加快上市时间并提高247全天候运行以驱动制造过程的大型数据中心的能源效率。 芯片行业是世界上几乎所有其他行业的基础,NVIDIA创始人兼首席执行官黄仁勋表示。随着光刻技术达到物理极限,NVIDIA推出cuLitho并与我们的合作伙伴TSMC、ASML和Synopsys合作,使晶圆厂能够提高产量、减少碳足迹并为2nm及更高工艺奠定基础。 在GPU上运行,cuLitho比当前光刻技术(在硅晶圆上创建图案的过程)提供高达40倍的性能飞跃,加速目前每年消耗数百亿CPU小时的大量计算工作负载。 它使500个NVIDIADGXH100系统能够完成40,000个CPU系统的工作,并行运行计算光刻过程的所有部分,有助于减少电力需求和潜在的环境影响。 在短期内,使用cuLitho的晶圆厂可以帮助每天多生产35倍的光掩模芯片设计的模板使用比当前配置低9倍的功率。需要两周才能完成的光掩模现在可以在一夜之间完成。 从长远来看,cuLitho将实现更好的设计规则、更高的密度、更高的产量和AI驱动的光刻。 cuLitho团队通过将昂贵的操作转移到GPU,在加速计算光刻方面取得了令人钦佩的进展,台积电首席执行官CCWei博士说。这一发展为台积电在芯片制造中更广泛地部署逆光刻技术和深度学习等光刻解决方案开辟了新的可能性,为半导体规模的持续发展做出了重要贡献。 我们计划将对GPU的支持集成到我们所有的计算光刻软件产品中,ASML首席执行官PeterWennink说。我们与NVIDIA在GPU和cuLitho方面的合作应该会给计算光刻带来巨大好处,从而给半导体微缩带来好处。在HighNA极紫外光刻时代尤其如此。 Synopsys董事长兼首席执行官AartdeGeus表示:计算光刻,特别是光学邻近校正(OPC),正在突破最先进芯片的计算工作负载界限。通过与我们的合作伙伴NVIDIA合作,在cuLitho平台上运行SynopsysOPC软件,我们将性能从数周大幅提升至数天!我们两家领先公司的合作将继续推动该行业取得惊人的进步。 英伟达表示,近年来,由于较新节点中的晶体管数量更多以及更严格的精度要求,半导体制造中最大工作负载所需的计算时间成本已超过摩尔定律。未来的节点需要更详细的计算,并非所有这些都可以适用于当前平台提供的可用计算带宽,从而减缓了半导体创新的步伐。 晶圆厂流程变更通常需要OPC修订,从而造成瓶颈。cuLitho有助于消除这些瓶颈,并使新颖的解决方案和创新技术成为可能,例如曲线掩模、HighNAEUV光刻和新技术节点所需的亚原子光刻胶建模。 Nvidia宣布BlueField3GA Nvidia今天宣布全面推出其BlueField3数据处理单元(DPU)以及令人印象深刻的早期部署,包括OracleCloudInfrastructure。BlueField3于2021年首次描述,现已交付,是Nvidia的第三代DPU,拥有大约220亿个晶体管。与上一代BlueField相比,新的DPU支持以太网和InfiniBand连接,速度高达每秒400吉比特,计算能力提高4倍,加密加速提高4倍,存储处理速度提高2倍,内存带宽提高4倍。 Nvidia首席执行官黄仁勋在GTC23主题演讲中表示:在现代软件定义的数据中心中,执行虚拟化、网络、存储和安全性的操作系统会消耗数据中心近一半的CPU内核和相关功率。数据中心必须加速每个工作负载以回收功率并释放CPU用于创收工作负载。NvidiaBlueField卸载并加速了数据中心操作系统和基础设施软件。 早在2020年,Nvidia就制定了DPU战略,认为CPU正因诸如Huang所引用的内务杂务而陷入困境。Nvidia认为,DPU将吸收这些任务,从而释放CPU用于应用程序。其他芯片供应商尤其是英特尔和AMD似乎同意并已跳入DPU市场。 有时被描述为类固醇的智能网卡引起了人们的兴趣,但尚未转化为广泛的销售。变化现在可能正在发生。Huang列举了超过20个生态系统合作伙伴,其中包括现在使用BlueField技术的Cisco、DDN、DellEMC和Juniper。 在媒体分析师预简报会上,英伟达网络副总裁KevinDeierling表示:BlueField3已全面投入生产并可供使用。它的Arm处理器内核数量是BlueField2的两倍,加速器更多,并且运行工作负载的速度比我们上一代DPU快八倍。BlueField3可跨云HPC、企业和加速AI用例卸载、加速和隔离工作负载。 Nvidia的DPU瞄准超级计算机、数据中心和云提供商。在GTC上,Nvidia吹捧了Oracle云部署,其中BlueField3是Nvidia更大的DGXintheCloud胜利的一部分。 正如你所听到的,我们宣布OracleCloudInfrastructure率先运行DGXCloud和AI超级计算服务,使企业能够立即访问为生成AI训练高级模型所需的基础设施和软件。OCI〔还〕选择了BlueField3以实现更高的性能、效率和安全性。与BluField2相比,BlueField3通过从CPU卸载数据中心基础设施任务,将虚拟化实例增加了八倍,从而提供了巨大的性能和效率提升,Deierling说。 在官方公告中,英伟达引用了OCI执行副总裁ClayMagouyrk的话说:Oracle云基础设施为企业客户提供了几乎无与伦比的人工智能和科学计算基础设施的可访问性,并具有改变行业的能力。NvidiaBlueField3DPU是我们提供最先进、可持续的云基础设施和极致性能战略的关键组成部分。 BlueField3在CSP中的其他胜利包括百度、CoreWeave。京东、微软Azure和腾讯。 Nvidia还报告称,BlueField3具有通过DOCA软件框架的完全向后兼容性。 DOCA是BlueField的编程工具,DOCA2。0是最新版本。Nvidia一直在稳步为其DPU产品线添加功能。例如,最近,它加强了内联GPU数据包处理,以实施高数据率解决方案:数据过滤、数据放置、网络分析、传感器信号处理等。新的DOCAGPUNetIO库可以克服以前DPDK解决方案中发现的一些限制。 按照英伟达所说,Nvidia实时GPU网络数据包处理是一种对多个不同应用领域有用的技术,包括信号处理、网络安全、信息收集和输入重建。这些应用程序的目标是实现内联数据包处理管道以在GPU内存中接收数据包(无需通过CPU内存暂存副本);与一个或多个CUDA内核并行处理它们;然后运行推理、评估或通过网络发送计算结果。 推出H100NVL,用于大模型的内存服务器卡 Anandtech表示,虽然今年的春季GTC活动没有采用NVIDIA的任何新GPU或GPU架构,但该公司仍在推出基于去年推出的Hopper和AdaLovelaceGPU的新产品。但在高端市场,该公司今天宣布推出专门针对大型语言模型用户的新H100加速器变体:H100NVL。 H100NVL是NVIDIAH100PCIe卡的一个有趣变体,它是时代的标志和NVIDIA在AI领域取得的广泛成功,其目标是一个单一的市场:大型语言模型(LLM)部署。有一些东西使这张卡与NVIDIA通常的服务器票价不同其中最重要的是它的2个H100PCIe板已经桥接在一起但最大的收获是大内存容量。组合的双GPU卡提供188GB的HBM3内存每张卡94GB提供比迄今为止任何其他NVIDIA部件更多的每个GPU内存,即使在H100系列中也是如此。 驱动此SKU的是一个特定的利基市场:内存容量。像GPT系列这样的大型语言模型在许多方面都受到内存容量的限制,因为它们甚至会很快填满H100加速器以保存它们的所有参数(在最大的GPT3模型的情况下为175B)。因此,NVIDIA选择拼凑出一个新的H100SKU,它为每个GPU提供的内存比他们通常的H100部件多一点,后者最高为每个GPU80GB。 在封装的盖下,我们看到的本质上是放置在PCIe卡上的GH100GPU的特殊容器。所有GH100GPU都配备6个HBM内存堆栈(HBM2e或HBM3),每个堆栈的容量为16GB。然而,出于良率原因,NVIDIA仅在其常规H100部件中提供6个HBM堆栈中的5个。因此,虽然每个GPU上标称有96GB的VRAM,但常规SKU上只有80GB可用。 而H100NVL是神话般的完全启用的SKU,启用了所有6个堆栈。通过打开第6个HBM堆栈,NVIDIA能够访问它提供的额外内存和额外内存带宽。它将对产量产生一些实质性影响多少是NVIDIA严密保守的秘密但LLM市场显然足够大,并且愿意为近乎完美的GH100封装支付足够高的溢价,以使其值得NVIDIA光顾。 即便如此,应该注意的是,客户无法访问每张卡的全部96GB。相反,在总容量为188GB的内存中,它们每张卡的有效容量为94GB。在今天的主题演讲之前,NVIDIA没有在我们的预简报中详细介绍这个设计,但我们怀疑这也是出于良率原因,让NVIDIA在禁用HBM3内存堆栈中的坏单元(或层)方面有一些松懈。最终结果是新SKU为每个GH100GPU提供了14GB的内存,内存增加了17。5。同时,该卡的总内存带宽为7。8TB秒,单个板的总内存带宽为3。9TB秒。 除了内存容量增加之外,更大的双GPU双卡H100NVL中的各个卡在很多方面看起来很像放置在PCIe卡上的H100的SXM5版本。虽然普通的H100PCIe由于使用较慢的HBM2e内存、较少的活动SM张量核心和较低的时钟速度而受到一些限制,但NVIDIA为H100NVL引用的张量核心性能数据与H100SXM5完全相同,这表明该卡没有像普通PCIe卡那样进一步缩减。我们仍在等待产品的最终、完整规格,但假设这里的所有内容都如所呈现的那样,那么进入H100NVL的GH100将代表当前可用的最高分档GH100。 这里需要强调复数。如前所述,H100NVL不是单个GPU部件,而是双GPU双卡部件,它以这种方式呈现给主机系统。硬件本身基于两个PCIe外形规格的H100,它们使用三个NVLink4桥接在一起。从物理上讲,这实际上与NVIDIA现有的H100PCIe设计完全相同后者已经可以使用NVLink桥接器进行配对所以区别不在于两板四插槽庞然大物的结构,而是内部芯片的质量。换句话说,您今天可以将普通的H100PCIe卡捆绑在一起,但它无法与H100NVL的内存带宽、内存容量或张量吞吐量相匹配。 令人惊讶的是,尽管有出色的规格,但TDP几乎保持不变。H100NVL是一个700W到800W的部件,分解为每块板350W到400W,其下限与常规H100PCIe的TDP相同。在这种情况下,NVIDIA似乎将兼容性置于峰值性能之上,因为很少有服务器机箱可以处理超过350W的PCIe卡(超过400W的更少),这意味着TDP需要保持稳定。不过,考虑到更高的性能数据和内存带宽,目前还不清楚NVIDIA如何提供额外的性能。Powerbinning在这里可以发挥很大的作用,但也可能是NVIDIA为卡提供比平常更高的提升时钟速度的情况,因为目标市场主要关注张量性能并且不会点亮整个GPU一次。 否则,鉴于NVIDIA对SXM部件的普遍偏好,NVIDIA决定发布本质上最好的H100bin是一个不寻常的选择,但在LLM客户的需求背景下,这是一个有意义的决定。基于SXM的大型H100集群可以轻松扩展到8个GPU,但任何两个GPU之间可用的NVLink带宽量因需要通过NVSwitch而受到限制。对于只有两个GPU的配置,将一组PCIe卡配对要直接得多,固定链路保证卡之间的带宽为600GB秒。 但也许比这更重要的是能够在现有基础设施中快速部署H100NVL。LLM客户无需安装专门为配对GPU而构建的H100HGX载板,只需将H100NVL添加到新的服务器构建中,或者作为对现有服务器构建的相对快速升级即可。毕竟,NVIDIA在这里针对的是一个非常特殊的市场,因此SXM的正常优势(以及NVIDIA发挥其集体影响力的能力)可能不适用于此。 总而言之,NVIDIA宣称H100NVL提供的GPT3175B推理吞吐量是上一代HGXA100的12倍(8个H100NVL对比8个A100)。对于希望尽快为LLM工作负载部署和扩展系统的客户来说,这肯定很有吸引力。如前所述,H100NVL在架构特性方面并没有带来任何新的东西这里的大部分性能提升来自Hopper架构的新变压器引擎但H100NVL将作为最快的PCIeH100服务于特定的利基市场选项,以及具有最大GPU内存池的选项。 总结一下,根据NVIDIA的说法,H100NVL卡将于今年下半年开始发货。该公司没有报价,但对于本质上是顶级GH100的产品,我们预计它们会获得最高价格。特别是考虑到LLM使用量的激增如何转变为服务器GPU市场的新淘金热。 Nvidia的云,服务起价37,000美元 如果你是Nvidia的忠实拥护者,请准备好花大价钱使用它在云端的AI工厂。 Nvidia联合创始人兼首席执行官黄仁勋上个月在谈到这家GPU制造商的季度收益时,提出了NvidiaDGXCloud的计划,本质上是呼吁将公司的DGXAI超级计算机硬件和配套软件尤其是其广泛的企业AI一套软件放到公有云平台上供企业使用。 我们必须申明,Nvidia还不够富有,或者说不够愚蠢,他们无法构建云来与AmazonWebServices、MicrosoftAzure或GoogleCloud等公司竞争。但他们足够聪明,可以利用这些庞大的计算和存储实用程序为自己谋利,并在它们构建的基础设施之上销售服务赚钱,而基础设施又基于自己的组件。 DGXCloud的巧妙之处不在于有经过认证的本地和云堆栈来运行Nvidia的AI硬件和软件。您需要向Nvidia支付费用,才能以一种SaaS模式这样做Nvidia可以向您或云出售构建基础设施的部件。 就其本身而言,这是使AI民主化的最新尝试,将其带出HPC和研究机构的领域,并将其置于主流企业的范围内,这些企业非常渴望利用新兴技术可以带来的业务优势递送。 对于Nvidia而言,DGXCloud的人工智能即服务代表着向云优先战略的强烈转变,以及一种理解与其他组件制造商一样它现在既是一家硬件制造商,也是一家软件公司,而公共云是一个使该软件易于访问并且更重要的是将其货币化的自然途径。 对于十多年前将AI置于其前进战略中心、构建以AI为核心的路线图的公司而言,这是重要的下一步。Nvidia在2016年推出了DGX1,这是其第一台深度学习超级计算机。第四代系统于去年推出。2020年出现了第一批DGXSuperPOD,一年后Nvidia推出了AIEnterprise,这是一个包含框架、工具和相当大剂量的VMwarevSphere的软件套件。 AIEnterprise强调了软件对Nvidia日益增长的重要性反映了其他组件制造商的类似趋势这家公司现在从事软件工作的员工多于硬件。 借助DGXCloud,Nvidia现在可以通过另一种方式将所有这些交付给那些希望在其工作流程中利用生成式AI工具(例如来自OpenAI的广受欢迎的ChatGPT)的企业(通过Microsoft),但没有资源在其内部扩展基础设施数据中心来支持它。他们现在可以通过云访问它,享受它所有的可扩展性和即用即付的好处。 Nvidia企业计算副总裁ManuvirDas在GTC前会议上告诉记者:多年来,我们一直在与企业公司合作,创建他们自己的模型来训练他们自己的数据。过去几个月,像ChatGPT这样基于非常非常大的GPT模型的服务越来越受欢迎,每天有数百万人使用一个模型。当我们与企业公司合作时,他们中的许多人有兴趣使用自己的数据为自己的目的创建模型。 据最新介绍,租用GPU公司包罗万象的云端AI超级计算机的DGXCloud起价为每个实例每月36,999美元。租金包括使用带有八个NvidiaH100或A100GPU和640GBGPU内存的云计算机。价格包括用于开发AI应用程序和大型语言模型(如BioNeMo)的AIEnterprise软件。 DGXCloud有自己的定价模型,因此客户向Nvidia付费,他们可以根据他们选择使用它的位置通过任何云市场购买它,但这是一项由Nvidia定价的服务,包括所有费用,Nvidia企业计算副总裁ManuvirDas在新闻发布会上说。 DGXCloud的起始价格接近MicrosoftAzure每月收取的20,000美元的两倍,用于满载的A100实例,该实例具有96个CPU内核、900GB存储空间和8个A100GPU每月。 甲骨文在其RDMA超级集群中托管DGX云基础设施,可扩展到32,000个GPU。微软将在下个季度推出DGXCloud,随后将推出GoogleCloud。 客户将不得不为最新的硬件支付额外费用,但软件库和工具的集成可能会吸引企业和数据科学家。 Nvidia声称它为AI提供了最好的可用硬件。它的GPU是高性能和科学计算的基石。但是Nvidia专有的硬件和软件就像使用AppleiPhone一样你得到了最好的硬件,但一旦你被锁定,就很难脱身,而且在它的生命周期中会花费很多钱。 但为Nvidia的GPU支付溢价可能会带来长期利益。例如,Microsoft正在投资Nvidia硬件和软件,因为它通过BingwithAI提供了成本节约和更大的收入机会。 人工智能工厂的概念是由首席执行官黄仁勋提出的,他将数据设想为原材料,工厂将其转化为可用数据或复杂的人工智能模型。Nvidia的硬件和软件是AI工厂的主要组成部分。 你只需提供你的工作,指向你的数据集,然后点击开始,所有的编排和下面的一切都在DGXCloud中得到处理。现在,相同的模型可以在托管在各种公共云上的基础设施上使用,Nvidia企业计算副总裁ManuvirDas在新闻发布会上说。 Das说,数百万人正在使用ChatGPT风格的模型,这需要高端人工智能硬件。 DGXCloud进一步推动了Nvidia将其硬件和软件作为一套产品销售的目标。Nvidia正在进军软件订阅业务,该业务的长尾涉及销售更多硬件,从而产生更多软件收入。BaseCommandPlatform软件界面将允许公司管理和监控DGX云培训工作负载。 OracleCloud拥有多达512个NvidiaGPU的集群,以及每秒200GB的RDMA网络。该基础设施支持包括Lustre在内的多个文件系统,吞吐量为每秒2TB。 Nvidia还宣布有更多公司采用了其H100GPU。Amazon宣布他们的EC2UltraClusters和P5实例将基于H100。这些实例可以使用他们的EFA技术扩展到20,000个GPU,Nvidia超大规模和HPC计算副总裁IanBuck在新闻发布会上说。 EFA技术是指ElasticFabricAdapter,它是由Nitro编排的网络实现,它是一种处理网络、安全和数据处理的通用定制芯片。 MetaPlatforms已开始在GrandTeton中部署H100系统,这是社交媒体公司下一代AI超级计算机的平台。 总结 在昨天开幕的GTC上,英伟达还带来了多样化的产品,例如用于特定推理的的英伟达L4GPU。据报道,这款GPU可以提供比CPU高120倍的人工智能视频性能。它提供增强的视频解码和转码功能、视频流、增强现实和生成AI视频。 此外,英伟达还联合客户打造由16个DGXH100系统组成,每个系统配备八个H100GPU的生成式AI超级计算机Tokyo1。根据Nvidia的AI触发器数学计算,这相当于大约一半的exaflopAI能力;由于每个H100(一开始将有128个)提供30teraflops的峰值FP64功率,因此它应该达到大约3。84petaflops的峰值。 由此可见,黄仁勋正在带领英伟达走向一个新阶段。