深度解读黄仁勋GTC演讲

2025-03-18 23:25:47 · chineseheadlinenews.com · 来源: 硬AI

Semianalysis表示,在GTC2025大会上,英伟达推出的推理Token扩展、推理堆栈与Dynamo技术、共封装光学(CPO)技术等创新将显著降低AI总拥有成本,使得高效推理系统的部署成本大幅下降,并巩固了英伟达在全球AI生态系统中的领先地位。

当地时间3月18日周二,英伟达CEO黄仁勋在加州圣何塞举行的英伟达AI盛会GTC 2025上发表主题演讲。美国知名半导体咨询机构Semianalysis深度解读黄仁勋GTC演讲,详细阐述英伟达在推动AI推理性能提升方面的最新进展。

市场担心的是,DeepSeek式的软件优化以及英伟达主导的硬件进步带来的巨大成本节省,可能导致对AI硬件的需求下降。然而,价格会影响需求,当AI成本降低时,AI能力的边界不断被突破,而需求随之增加。

随着英伟达在硬件和软件方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,从而实现成本效益的扩散效应,实际的消费量反而会增加,正如英伟达的口号所说的那样:“买越多、省越多”。

以下为文章的核心观点:

推理Token扩展:预训练、后训练与推理时扩展定律协同作用,使得AI模型能力不断提升。

黄仁勋数学规则:包括FLOPs稀疏率、双向带宽计量,以及以封装中GPU芯片数量计算GPU数量的新规则。

GPU与系统路线图:介绍了Blackwell Ultra B300、Rubin及Rubin Ultra的关键规格与性能改进,强调了新一代产品在性能、内存和网络互连上的突破。

推出的推理堆栈与Dynamo技术:通过智能路由器、GPU规划器、改进的NCCL、NIXL和NVMe KVCache卸载管理器等新功能,极大提升了推理吞吐量和效率。

共封装光学(CPO)技术:详述了CPO在降低功耗、提高交换机基数和网络扁平化方面的优势,以及其在未来规模化网络部署中的潜力。

文章指出,这些创新将显著降低AI总拥有成本,使得高效推理系统的部署成本大幅下降,并巩固了英伟达在全球AI生态系统中的领先地位。

Semianalysis深度解读全文为AI翻译

推理 Token 爆炸

人工智能模型的进步加速迅猛,在过去六个月里,模型的提升超过了此前六个月的进展。这一趋势将持续下去,因为三条扩展定律——预训练扩展、后训练扩展和推理时扩展——正协同作用,共同推动这一进程。

今年的GTC(GPU技术大会)将聚焦于应对新的扩展范式。

来源:英伟达

Claude 3.7在软件工程领域展现了惊人的性能。Deepseek v3显示出上一代模型的成本正在急剧下降,这将进一步推动其应用普及。OpenAI的o1和o3模型证明,延长推理时间和搜索功能意味着答案质量大幅提升。正如预训练定律早期所展示的那样,后训练阶段增加计算资源没有上限。今年,Nvidia正致力于大幅提升推理成本效率,目标是实现35倍的推理成本改善,从而支持模型的训练和部署。

去年市场的口号是“买得越多,省得越多”,但今年的口号变成了“省得越多,买得越多”。Nvidia在硬件和软件方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,从而实现成本效益的扩散效应,这正是杰文斯悖论的经典体现。

市场担心的是,DeepSeek式的软件优化以及Nvidia主导的硬件进步带来的巨大成本节省,可能导致对AI硬件的需求下降,市场可能出现Token供过于求的情况。价格会影响需求,当AI成本降低时,AI能力的边界不断被突破,而需求随之增加。如今,AI的能力受限于推理成本,随着成本下降,实际的消费量反而会增加。

对Token通缩的担忧类似于讨论光纤互联网每个数据包连接成本下降时,却忽略了网站和互联网应用对我们生活、社会和经济的最终影响。关键区别在于,带宽存在上限,而随着能力的显著提升和成本的下降,对AI的需求则可以无限增长。

Nvidia提供的数据支持了杰文斯悖论的观点。现有模型的Token数超过100万亿,而一个推理模型的Token量是其20倍,计算量则高出150倍。

来源:英伟达

测试时的计算需要数十万Token/查询,每月有数亿次查询。后训练扩展阶段,即模型“上学”,每个模型需要处理数万亿Token,同时需要数十万后训练模型。此外,具备代理能力的AI意味着多个模型将协同工作,解决越来越复杂的问题。

黄仁勋数学每年都在变化

每年,黄仁勋都会推出新的数学规则。今年的情况更为复杂,我们观察到第三条新的黄仁勋数学规则。

第一条规则是,Nvidia公布的FLOPs数据以2:4稀疏度(实际上无人使用)计,而真实性能指标是密集FLOPs——也就是说,H100在FP16下被报为989.4 TFLOPs,实际密集性能约为1979.81 TFLOPs。

第二条规则是,带宽应以双向带宽来计量。NVLink5的带宽被报为1.8TB/s,因为它的发送带宽为900GB/s,加上接收带宽900GB/s。尽避这些数据在规格书中相加,但在网络领域,标准是以单向带宽计量。

现在,第三条黄仁勋数学规则出现了:GPU数量将按照封装中GPU芯片的数量计,而非封装数量。从Rubin系列开始,这一命名方式将被采用。第一代Vera Rubin机架将被称为NVL144,即使其系统架构与GB200 NVL72类似,只不过采用了相同的Oberon机架和72个GPU封装。这种新的计数方式虽然让人费解,但我们只能在黄仁勋的世界中接受这一变化。

现在,让我们来回顾一下路线图。

GPU和系统路线图

来源:英伟达

Blackwell Ultra B300

来源:英伟达

Blackwell Ultra 300已预览过,细节与去年圣诞节时我们分享的基本一致。主要规格如下:GB300不会以单板形式出售,而是作为B300 GPU出现在一个便携式SXM模块上,同时搭载Grace CPU,也以便携式BGA形式出现。在性能上,B300相对于B200在FP4 FLOPs密度上提升超过50%。内存容量升级到每个封装288GB(8个12-Hi HBM3E堆叠),但带宽维持在8 TB/s不变。实现这一目标的关键在于减少了许多(但不是全部)FP64运算单元,并将其替换为FP4和FP6运算单元。双精度工作负载主要用于HPC和超级计算,而非AI。虽然这让HPC群体感到失望,但Nvidia正转向强调更重要的AI市场。

B300 HGX版本现在称为B300 NVL16。这将采用之前称为“B300A”的单GPU版本,现在简称“B300”。由于单个B300没有高速D2D接口连接两个GPU芯片,可能存在更多通信间接费用。

B300 NVL16将取代B200 HGX形态,采用16个封装和GPU芯片在一块基板上。为实现这一点,每个SXM模块上放置2个单芯片封装,共8个SXM模块。尚不清楚Nvidia为何不继续采用8×双芯B300,而选择这种方式,我们怀疑这是为了从更小的CoWoS模块和封装基板中提高产量。值得注意的是,该封装技术将采用CoWoS-L而非CoWoS-S,这一决策意义重大。CoWoS-S的成熟度和产能是单芯B300A的原因,而这一转变表明CoWoS-L已迅速成熟,其产率相比起初的低迷已有所稳定。

这16个GPU将通过NVLink协议通信,与B200 HGX类似,两块NVSwitch 5.0 ASIC将位于SXM模块的两个阵列之间。

新细节是,与以往的HGX不同,B300 NVL16将不再采用Astera Labs的重定时器。不过,一些超大规模云服务提供商可能会选择加入PCIe交换机。我们曾在今年早些时候向Core Research订阅者透露过这一消息。

另一个重要细节是,B300将引入CX-8 NIC,该网卡提供4个200G的通道,总吞吐量达到800G,为InfiniBand提供新一代网络速度,这比现有的CX-7 NIC提升一倍。

Rubin技术规格

来源:英伟达

来源:Semianalysis

Rubin将采用台积电3nm工艺,拥有两个reticle-size计算芯片,左右各配备两个I/O Tile,内置所有NVLink、PCIe以及NVLink C2C IP,以释放主芯片上更多用于计算的空间。

Rubin提供令人难以置信的50 PFLOPs密集FP4计算性能,比B300的代际性能增长超过三倍。Nvidia如何实现这一点?他们通过以下几个关键向量进行扩展:

1、如上所述,I/O芯片释放的面积可能增加20%-30%,可用于更多的流处理器和张量核。

2、Rubin将采用3nm工艺,可能使用定制的Nvidia 3NP或标准N3P。从3NP到4NP的转变大幅提升了逻辑密度,但SRAM几乎没有缩减。

3、Rubin将具有更高的TDP——我们估计约为1800W,这甚至可能推动更高的时钟频率。

4、结构上,Nvidia逐代扩大的张量核systolic array将进一步扩大:从Hopper的32×32到Blackwell的64×64,Rubin可能扩展至128×128。更大的systolic array提供了更好的数据复用和较低的控制复杂度,同时在面积和功耗上更高效。尽避编程难度增加,但Nvidia凭借内置冗余和修复机制实现了极高的参数良率,这使得即使个别计算单元失效,整体性能仍能得到保障。这与TPU不同,后者的超大张量核没有相同的容错能力。

来源:Semianalysis

Rubin将继续使用Oberon机架架构,如同GB200/300 NVL72,并配备Vera CPU——Grace的3nm继任者。需要注意的是,Vera CPU将采用Nvidia全定制核心,而Grace则严重依赖Arm的Neoverse CSS核心。Nvidia还开发了一套定制互连系统,使得单个CPU核心能访问更多内存带宽,这一点是AMD和Intel难以匹敌的。

这就是新命名方式的由来。新机架将命名为VR200 NVL144,尽避系统架构与之前的GB200 NVL72类似,但由于每个封装含有2个计算芯片,总计144个计算芯片(72个封装×2个计算芯片/封装),Nvidia正在改变我们统计GPU数量的方式!

至于AMD,其市场营销团队需要注意,AMD在宣称MI300X家族可以扩展到64个GPU的规模上存在遗漏(每系统8个封装×每封装8个XCD芯片组),这是一个关键的市场机遇。

HBM与互连

Nvidia的HBM容量将一代比一代保持在288GB,但升级为HBM4:8个堆叠,每个12-Hi,层密度保持24GB/层。HBM4的应用使得总带宽得以提升,13TB/s的总带宽主要得益于总线宽度翻倍至2048位,针脚速度为6.5Gbps,符合JEDEC标准。

来源:Semianalysis

NVLink第六代的速度翻倍至3.6TB/s(双向),这来自于通道数量翻倍,Nvidia仍采用224G SerDes。

回到Oberon机架,背板依然采用铜背板,但我们认为其电缆数量也相应增加,以适应每个GPU通道数量的翻倍。

NVSwitch方面,新一代NVSwitch ASIC也将通过通道数量翻倍来实现总带宽的翻倍,这将进一步提高交换机的性能。

Rubin Ultra规格

来源:英伟达

Rubin Ultra是性能大幅提升的阶段。Nvidia将直接在一个封装中使用16个HBM堆叠,从8个增加至16个。整个机架将由4个掩模尺寸GPU组成,中间配有2个I/O芯片。计算区域翻倍,计算性能也翻倍至100 PFLOPs密集FP4性能。HBM容量增加到1024GB,超过普通Rubin的3.5倍。采用双堆叠设计,同时密度和层数也提高。为达到1TB内存,封装中将有16个HBM4E堆叠,每个堆叠有16层32Gb DRAM核心芯片。

我们认为,这种封装将拆分为两个互连器放置在基板上,以避免使用一个超大互连器(几乎8倍于掩模大小)。中间的2个GPU芯片将通过薄型I/O芯片进行互联,通信通过基板实现。这需要一个超大ABF基板,其尺寸超出当前JEDEC封装尺寸限制(宽度和高度均为120mm)。

该系统拥有总计365TB的高速存储,每个Vera CPU拥有1.2TB LPDDR,共计86TB(72个CPU),这为每个GPU封装留下约2TB的LPDDR,作为额外的二级内存。这是对定制HBM基芯功能的实现。LPDDR内存控制器集成在基芯上,为额外的二级内存服务,该内存位于板上LPCAMM模块上,与Vera CPU所带的二级内存协同工作。

来源:Semianalysis

这也是我们将看到Kyber机架架构推出的时候。

Kyber机架架构

Kyber机架架构的关键新特性在于,Nvidia通过将机架旋转90度来提高密度。对于NVL576(144个GPU封装)的配置,这是大规模扩展网络规模的又一重大提升。

来源:英伟达

让我们来看一下Oberon机架与Kyber机架的关键区别:

来源:Semianalysis

·计算托盘旋转90度,形成类似于卡盒的形态,从而实现更高的机架密度。

·每个机架由4个筒仓组成,每个筒仓包括两层18个计算卡。

对于NVL576,每个计算卡中包含一个R300 GPU和一个Vera CPU。

每个筒仓总共有36个R300 GPU和36个Vera CPU。

这使得NVLink的世界规模达到144个GPU(576个芯片)。

·PCB背板取代了铜线背板,作为GPU与NVSwitch之间扩展链接的关键部件。

这一转变主要是由于在较小的占地面积内难以布置电缆。

来源:英伟达

有迹象表明,供应链中出现了VR300 NVL1,152(288个GPU封装)的Kyber机架变体。如果按照GTC主题演讲中提到的晶圆数计算,您将看到红色标注的288个GPU封装。我们认为这可能是未来的一款SKU,其机架密度和NVLink世界规模将从展示的NVL576(144个封装)翻倍至NVL1,152(288个封装)。

此外,还有一款全新NVSwitch第七代,这一点值得注意。这是第一次引入中平台的NVSwitch,使得交换机总带宽和基数都有所提升,可扩展到单一域内576个GPU芯片(144个封装),不过拓扑结构可能不再是全互联的单级多平面结构,而可能转为具有过度订阅的两级多平面网络拓扑,或甚至采用非Clos拓扑。

Blackwell Ultra改进的指数级硬件单元

各种注意力机制(如flash-attention、MLA、MQA和GQA)都需要矩阵乘法(GEMM)和softmax函数(行归约和元素级指数运算)。

在GPU中,GEMM运算主要由张量核执行。虽然每代张量核性能不断提升,但负责softmax计算的多功能单元(MUFU)提升幅度较小。

在bf16(bfloat16)Hopper中,计算注意力层的softmax需要占用GEMM周期的50%。这要求内核工程师通过重叠计算来“隐藏”softmax的延迟,这使得编写内核变得异常困难。

来源: Tri Dao @ CUDA Mode Hackathon 2024

在FP8(浮点数8位)的Hopper中,注意力层的softmax计算所需周期与GEMM相同。如果没有任何重叠,注意力层的计算时间将翻倍,大约需要1536个周期来计算矩阵乘法,再加1536个周期来计算softmax。这就是重叠技术提高吞吐量的关键所在。由于softmax和GEMM所需周期相同,工程师需要设计出完美重叠的内核,但现实中很难达到这一理想状态,根据阿姆达尔定律,完美重叠难以实现,硬件性能因此受损。

在Hopper GPU世界中,这一挑战尤为明显,第一代Blackwell也面临类似问题。Nvidia通过Blackwell Ultra解决了这一问题,在重新设计SM(流多处理器)并增加新的指令后,使MUFU计算softmax部分的速度提升了2.5倍。这将减轻对完美重叠计算的依赖,使得CUDA开发者在编写注意力内核时有更大的容错空间。

来源: Tri Dao @ CUDA Mode Hackathon 2024

这正是Nvidia新的推理堆栈和Dynamo技术大显身手的地方。

推理堆栈与Dynamo

在去年的GTC上,Nvidia讨论了GB200 NVL72的大规模GPU扩展如何使推理吞吐量较H200在FP8下提升15倍。

来源:英伟达

Nvidia并未放缓步伐,而是在硬件和软件领域同时加速推理吞吐量的提升。

Blackwell Ultra GB300 NVL72较GB200 NVL72在FP4密集性能上提升50%,同时HBM容量也提升50%,这两项均将提高推理吞吐量。路线图中还包括Rubin系列中网络速度的多项升级,这也将显著提升推理性能。

下一步硬件在推理吞吐量方面的跃升将来自Rubin Ultra中扩展的网络规模,其规模将从Rubin中的144个GPU芯片(或封装)扩展到576个GPU芯片,这只是硬件改进的一部分。

在软件方面,Nvidia推出了Nvidia Dynamo——一个开放的AI引擎堆栈,旨在简化推理部署和扩展。Dynamo有潜力颠覆现有的VLLM和SGLang,提供更多功能且性能更高。结合硬件创新,Dynamo将使推理吞吐量和交互性之间的曲线进一步右移,尤其是为需要更高交互性的应用场景提供改进。

来源:英伟达

Dynamo引入了多个关键新功能:

·Smart Router:智能路由器能在多GPU推理部署中合理分配每个Token,确保在预加载和解码阶段均衡负载,避免瓶颈。

·GPU Planner:GPU规划器可以自动调整预加载和解码节点,依据日内需求波动动态增加或重新分配GPU资源,进一步实现负载均衡。

·改进的NCCL Collective for Inference:Nvidia Collective Communications Library(NCCL)的新算法使得小消息传输延迟降低4倍,从而显著提高推理吞吐量。

·NIXL(NVIDIA Inference Transfer Engine):NIXL利用InfiniBand GPU-Async Initialized(IBGDA)技术,将控制流和数据流均直接从GPU传输到NIC,无需通过CPU,极大降低延迟。

·NVMe KV-Cache Offload Manager:该模块允许将KV Cache离线存储到NVMe设备,避免在多轮对话中重复计算,从而加速响应并释放预加载节点容量。

智能路由器

智能路由器能在多GPU推理部署中智能地将每个token同时路由到预加载(prefill)和解码(decode)GPU上。在预加载阶段,确保传入的tokens均匀分配到各个负责预加载的GPU上,从而避免某个expet参数模块因流量过载而形成瓶颈。

同样,在解码阶段,确保序列长度和请求在负责解码的各GPU之间得到合理分配和平衡也十分关键。对于那些处理量较大的expet参数模块,GPU规划器(GPU Planner)还可将其复制,以进一步维持负载平衡。

此外,智能路由器还能在所有模型副本之间实现负载均衡,这一点是vLLM等许多推理引擎所不具备的优势。

来源:英伟达

GPU规划器

GPU规划器是预加载和解码节点的自动扩展器,可根据一天内需求的自然波动启动额外节点。它能够在基于专家模型(MoE)的多个expet参数模块之间实施一定程度的负载均衡,无论是在预加载还是在解码阶段。GPU规划器会启动额外的GPU,为高负载expet参数模块提供更多计算能力,并可根据需要在预加载和解码节点之间动态重新分配资源,从而最大化资源利用率。

此外,它还支持调整用于解码和预加载的GPU比例——这对像Deep Research这样的应用尤为重要,因为这类应用需要预加载大量上下文信息,而实际生成的内容却相对较少。

来源:英伟达

改进的NCCL集体通信

Nvidia Collective Communications Library (NCCL)中新增的一组低延迟通信算法,可以将小消息传输的延迟降低4倍,从而大幅提升整体推理吞吐量。

在今年的GTC上,Sylvain在演讲中详细介绍了这些改进,重点阐述了单次和双次全归约(all-reduce)算法如何实现这一效果。

由于AMD的RCCL库实际上是Nvidia NCCL的复制版本,Sylvain对NCCL的重构将持续扩大CUDA的护城河,同时迫使AMD在同步Nvidia重大重构成果上耗费大量工程资源,而Nvidia则可以利用这些时间继续推进集体通信软件堆栈和算法的前沿发展。

来源:英伟达

NIXL —— Nvidia推理传输引擎

为了在预加载节点和解码节点之间实现数据传输,需要低延迟、高带宽的通信传输库。NIXL采用InfiniBand GPU-Async Initialized (IBGDA)技术。

目前在NCCL中,控制流经过CPU代理线程,而数据流则直接传输到网卡,无需经过CPU缓冲。而使用IBGDA后,控制流与数据流均可直接从GPU传输到网卡,无需CPU中转,从而大幅降低延迟。

此外,NIXL还能将在CXL、本地NVMe、远程NVMe、CPU内存、远程GPU内存及GPU之间传输数据的复杂性进行抽象,简化数据移动流程。

来源:英伟达

NVMe KVCache卸载管理器

KVCache卸载管理器通过将之前用户对话中生成的KV缓存存储到NVMe设备中,而非直接丢弃,来提高预加载阶段整体效率。

来源:英伟达

在用户与大型语言模型(LLM)进行多轮对话时,模型需要将前期问答作为输入token纳入考量。传统上,推理系统会丢弃用于生成这些问答的KV缓存,导致必须重新计算,从而重复同样的计算过程。

而采用NVMe KVCache卸载后,当用户暂时离开时,KV缓存会被卸载到NVMe存储中;当用户重新提问时,系统可以迅速从NVMe中检索KV缓存,免去了重新计算的开销。

这不仅释放了预加载节点的计算能力,使其能够处理更多的输入流量,同时还改善了用户体验,显著缩短了从开始对话到接收到第一个token的时间。

来源:英伟达

根据DeepSeek在开源周第6天的GitHub说明,研究人员披露其磁盘KV缓存命中率为56.3%,表明在多轮对话中典型的KV缓存命中率可达到50%-60%,这对预加载部署效率提升起到了显著作用。虽然在对话较短时,重新计算可能比加载更便宜,但总体来看,采用NVMe存储方案所带来的节约成本是巨大的。

追踪DeepSeek开源周的朋友对上述技术应该并不陌生。这些技术堪称快速了解Nvidia Dynamo创新成果的绝佳途径,而Nvidia也将推出更多关于Dynamo的文档。

所有这些新特性共同实现了推理性能的大幅加速。Nvidia甚至讨论过,当Dynamo部署在现有的H100节点上时,性能如何进一步提升。基本上,Dynamo使得DeepSeek的创新成果普惠整个社区,不仅限于那些拥有顶尖推理部署工程能力的AI实验室,所有用户都能部署高效的推理系统。

最后,由于Dynamo能够广泛处理分散推理和专家并行性,它特别有利于单个复制和更高交互性部署。当然,要充分发挥Dynamo的能力,必须有大量节点作为前提,从而实现显著的性能改进。

来源:英伟达

这些技术共同带来了推理性能的巨大提升。Nvidia提到,当Dynamo部署在现有的H100节点上时,也能实现显著的性能改进。换句话说,Dynamo使得整个开源推理技术的最佳成果惠及所有用户,不仅仅是那些拥有深厚工程背景的顶级AI实验室。这让更多的企业能够部署高效的推理系统,降低整体成本,提高应用的交互性和扩展性。

AI总拥有成本下降

在讨论完Blackwell之后,黄仁勋强调,这些创新已使他成为“首席收入破坏者”。他指出,Blackwell相比Hopper的性能提升达68倍,使得成本下降了87%。而Rubin预计将实现比Hopper高900倍的性能提升,成本降低99.97%。

显然,Nvidia正以不懈的步伐推动技术进步——正如黄仁勋所言:“当Blackwell开始大规模出货时,你甚至不可能把Hopper免费送出。”

来源:英伟达

我们早在去年10月的《AI Neocloud行动指南》中就强调,产品周期早期部署计算能力的重要性,而这正是驱动H100租赁价格从2024年中期开始加速下跌的原因。我们一直呼吁整个生态系统优先部署下一代系统,如B200和GB200 NVL72,而不是继续采购H100或H200。

我们的AI云总拥有成本(TCO)模型已经向客户展示了各代芯片生产率的跃升,以及这种跃升如何推动AI Neocloud租赁价格的变化,进而影响芯片所有者的净现值。截至目前,我们在2024年初发布的H100租赁价格预测模型准确率达到98%。

来源: AI TCO Model

CPO(共封装光学)技术

来源:英伟达

在主题演讲中,Nvidia宣布了首个共封装光学(CPO)解决方案,将其部署于扩展交换机中。通过CPO,收发器被外部激光源(ELS)取代,与直接放置在芯片硅片旁边的光学引擎(OE)协同工作,实现数据通信。现在,光纤直接插入交换机上的端口,将信号路由至光学引擎,而不再依赖传统收发器端口。

来源:英伟达

CPO的主要优势在于显著降低功耗。由于交换机上不再需要数字信号处理器(DSP),而且可以使用功耗更低的激光光源,因此实现了显著的功耗节省。使用线性可插光模块(LPO)也能取得类似效果,但CPO还允许更高的交换机基数,从而将网络结构扁平化——使得整个集群能够通过使用CPO实现两层网络,而非传统三层网络。这样不仅降低了成本,也节约了功耗,这种节能效果几乎和降低收发器功耗一样显著。

我们的分析显示,对于一个400k* GB200 NVL72部署而言,从基于DSP收发器的三层网络转向基于CPO的两层网络,总集群功耗节省最高可达12%,使得收发器功耗从占计算资源的10%降至仅1%。

来源:Semianalysis

Nvidia今天推出了多款基于CPO的交换机,包括Quantum X-800 3400的CPO版本,该交换机去年在GTC 2024上首发,具有144个800G端口,总吞吐量达到115T,并将配备144个MPO端口和18个ELS。该交换机将于2025年下半年推出。另一款Spectrum-X交换机提供512个800G端口,同样适用于高速、扁平化的网络拓扑,该以太网CPO交换机计划于2026年下半年推出。

来源:英伟达

尽避今天的发布已经具有突破性意义,我们仍认为Nvidia在CPO领域仅仅是热身。长远来看,CPO在规模化网络中的最大贡献在于,它能够大幅提升GPU扩展网络的基数和聚合带宽,从而实现更快、更扁平的网络拓扑,开启远超576 GPU的规模化世界。我们将很快发布一篇更详细的文章,深入探讨Nvidia的CPO解决方案。

Nvidia依旧称王,瞄准你的计算成本

今天,《信息》发布了一篇文章,称亚马逊Trainium芯片的定价仅为H100价格的25%。与此同时,黄仁勋宣称:“当Blackwell开始大规模出货时,你甚至无法将H100免费送出。”我们认为这一说法极具分量。技术进步正在推动总体拥有成本的下降,而除了TPU之外,我们在各处都能看到Nvidia路线图的复制品。而黄仁勋正推动技术边界的不断突破。新的架构、机架设计、算法改进以及CPO技术都使Nvidia与竞争对手形成鲜明对比。Nvidia在几乎所有领域都处于领先地位,而当竞争对手追赶上来时,他们会在另一个方向继续突破。随着Nvidia保持一年一度的升级节奏,我们预计这一势头将继续。有人谈论ASIC将是计算的未来,但我们已经看到,像CPU时代那样的平台优势很难被超越。Nvidia正在通过GPU重新构建这种平台,我们预期他们将继续走在前沿。

正如黄仁勋所说,“祝你好运,跟上这位首席收入破坏者的步伐。”


    24小时新闻排行榜更多>>
  1. 他被毛泽东剽窃“军事思想”还遭打压半世纪
  2. 林向阳没死但受到限制?!习泥菩萨过江 未能出席中欧峰会
  3. 专家:避免在机场食用这5种食物和饮料
  4. 苏联生物战专家曝光:危险的中共军方生化武器
  5. 中共换届内斗打响?蔡奇整党 徐麟“抢跑”
  6. 金正恩核武背后血泪 海外劳工遭压榨、恐吓、卖命
  7. 高利贷利率6000%,谁在围猎“特殊借款人”
  8. 暴力事件激增 秘鲁首都及邻省进入紧急状态
  9. 和川普通话前,英法威胁普京:我们还有很多牌
  10. DeepSeek看中医:当“AI医生”无法“望闻切”时....
  11. 中国发现NASA缺陷,探月竞赛天平倾斜
  12. 白宫新闻秘书和丈夫差32岁,她终于打破沉默回应
  13. 谁发现了孟德尔?
  14. 川普重组美国和平研究所 DOGE进驻总部
  15. 春假出国旅游,FBI提供安全指南
  16. GTC 2025拉开帷幕,英伟达股价还跌了
  17. 川普称习近平要来 要华盛顿整顿市容 清理游民涂鸦
  18. 睡觉打鼾扰人清梦 学会这3招找回睡眠品质
  19. 卡戴珊巴黎绑架案:一场价值千万美元的“真人秀”?
  20. 30岁美国中学女教师侵犯男生,和丈夫结婚刚一年...
  21. 美国公开8万页肯尼迪遇刺案文件
  22. 川普与普京的通话为何这么久?
  23. 中文教师走访南加遗址,增加教学底蕴
  24. 俄军:乌军对俄别尔哥罗德州发动袭击
  25. 21岁“最飒公主”,为什么毅然决定参军?
  26. 半只鸡卖480元,喝牛奶听音乐长大的?
  27. 藤校H1B教授、绿卡持有者,被扣机场
  28. 美国之音遭关闭引争议 吴建民望浴火重生
  29. 社会安全局重大整顿 马斯克:很多吸血鬼在领社保
  30. 长和卖港口,香港两任特首都发声了!李家超回应了!
  31. 在美国开设公司最便宜的10州
  32. 大进展 普京下令停止攻击乌能源设施 泽连斯基准备换俘
  33. 无一例外 为何空姐都在脖子上系一条丝巾?
  34. 滞留9个月NASA女宇航员被抬出舱,暂失行走能力
  35. 孔子智慧识人 君子和小人有十个不同之处
  36. “四年期国防总检讨”出炉 学者揭台湾战略关键
  37. “我不是女超人” 妮可·基嫚宣布暂离演艺圈
  38. 反腐反不完 中共发动全党学习“中央八项规定”精神
  39. 华尔街最担心的是川普和美联储
  40. 美俄总统通话内容公布,普京提了一个关键条件
  41. 欧盟外长使激将法,没想到鲁比奥不接招
  42. 阿汤哥恋上小26岁好莱坞女神?
  43. 金赛纶金秀贤约会视频曝光
  44. 法官:马斯克解散USAID“可能”违反宪法
  45. 川普要求弹劾法官博斯伯格 美首席大法官拒绝
  46. 樊振东,决定不参加世界杯
  47. 习近平为什么与李嘉诚撕破脸
  48. 金光闪闪 川普对椭圆办公室"大改造" 到处"贴金花"…
  49. 尹锡悦弹劾案宣判日期在即,警方对李在明贴身保护
  50. 前央视主持人张政,当选新职务
  51. 喀纳斯湖水怪现身?惊见湖底巨影
  52. 【时事金扫描】以斩首哈头目 美击沉伊朗战船
  53. 他的研究让胃癌死亡率下降
  54. 马克龙:希望俄乌停火是“可核查的”
  55. 习近平真会“不久后访美”吗?专家存疑
  56. 白宫公布川普通话记录 传普京同意3点停火协议
  57. 马斯克:发现了“魔法印钞计算机”
  58. 深夜的卧室凭空出现 预告死亡的光球
  59. 美俄领导人通话后 川普和泽连斯基发声
  60. 美俄领导人通话 双方声明有哪些异同