训练顶尖大模型,是很耗电的事,据说单次电费就堪比普通家庭很多年的用电量,算力越强能耗越高曾是行业常态。

6月,英伟达Vera Rubin平台已全面投产,依靠7颗自研芯片整合为机架级超算,或许正在打破这一规律。单机架硬件功耗虽有上升,但完成同等大模型训练任务,所需GPU数量最高可减少75%,整体用电可能也随之大幅下降。

那么,下面就先抛开所有技术,只看一件事——电费。

“Vera Rubin是啥平台?”

Vera Rubin 不是单一芯片,而是一整套机架级 AI 系统。它整合了七款芯片,包括 Rubin GPU、Vera CPU、NVLink 6 交换芯片、ConnectX‑9 网络接口芯片、BlueField‑4 数据处理单元(DPU)、Spectrum‑6 以太网交换机及 Groq 3 LPU 推理加速器,七款芯片经协同设计共同组成Vera Rubin平台全栈硬件底座,分属五类不同功能机架;NVL72是平台里负责训练的主力计算机架,Groq3 LPU单独配套LPX机架、和NVL72联动做推理加速(LPU不集成在NVL72单机架内部,是配套独立机架);NVL72单机架本身就是一台机架级小型AI超算,多机架组网构成完整大型AI超算工厂。

其核心产品 Vera Rubin NVL72 将 72 颗 Rubin GPU 与 36 颗 Vera CPU 集成于单个机架中,是为 AI 智能体时代设计的算力基础设施。

“区分两个概念。”

要讨论能耗多少电前,需要区分两个不同的概念,一是“完成同等任务的总耗电量”,二是“单位耗电带来的性能产出”。

如果只看整机功耗的数字,Vera Rubin相比前代实际上是“更费电”的。VR200 NVL72在Max Q模式下整机功耗约为190kW,在Max P模式下可达约230kW,均显著高于上一代GB300 NVL72的约140kW。每个Rubin GPU的功耗约为2.3千瓦,高于最初公布的1.8千瓦。但这恰恰说明了问题所在,功耗大幅增加了,性能提升得更猛,最终单位产出所需的耗电反而下降了。

“到底省了多少电?”

目前,各种权威来源披露的能效提升数据并不完全一致,这当中的原因可能在于衡量指标不同。

如果看“每瓦推理算力”这项指标,英伟达官方测试数据显示,Vera Rubin相比上一代Blackwell架构提升了8倍。这可能就意味着,用同样的电力消耗,新平台能完成的推理计算量是前代的8倍。

英伟达AI基础设施负责人Dion Harris在接受媒体采访时还透露了另一组数据:新平台每瓦性能较Blackwell提升10倍,而系统整体功耗约为前代的两倍。这两组数字——8倍与10倍——背后可能采用了不同的测试场景或测量方法,但指向的结论却是一致的——Vera Rubin在能效上取得了质的飞跃。

在更具体的推理吞吐量维度上,采用英伟达自研软件栈后,整套平台每兆瓦的Token吞吐量相比上一代Blackwell提升了35倍,这意味着单位电力产出大幅增加。

在模型训练任务中,Vera Rubin平台在使用四分之一GPU数量(即72颗对比前代系统)的情况下,即可在同等时间内完成大型MoE(混合专家)模型的训练。这意味着,完成同样的训练任务,新平台所需的GPU数量减少了75%,而从整系统层面看,总耗电也因此得到大幅削减。

此外,Vera Rubin在推理端的Token生成成本降低至前代的十分之一。对于大型AI工厂的运营商而言,这可能直接对应的就是,单位产出的电费下降。

“完成同等任务耗电可降多少?”

综合以上数据,对于典型的AI推理任务,每单位计算产出所需的电力消耗下降幅度最高可达约90%——这接近于“同等产出耗电降至一成”。对于大型MoE模型的训练任务,由于所需GPU数量降至四分之一,整系统总耗电也大致按相应比例下降,幅度接近75%。

需要说明的是,这些数值是基于英伟达官方公布的数据进行的换算,实际能效提升还受到具体模型结构、部署规模、机房冷却条件等多重因素影响。

“更高能效的背后。”

Vera Rubin的能效提升并非靠单一芯片升级,而是源于七颗芯片的协同设计和全平台工程优化。其中,Vera CPU是首款专为AI智能体时代设计的处理器,搭载88个自研Olympus核心,专注于智能体工作流的调度与编排。Groq 3 LPX则作为低延迟推理加速器,专门负责大语言模型推理生成环节的高效输出。

Rubin GPU首次采用台积电3nm工艺和HBM4高带宽内存,单颗GPU的晶体管数量高达3360亿个。七颗芯片各司其职、紧密协同,避免了传统架构中“大马拉小车”的资源浪费。

Vera Rubin也是英伟达首个100%全液冷散热的系统平台。对于AI基础设施的运营方而言,液冷技术在提升散热效率的同时还能节约水资源,降低数据中心整体的能源成本。

“写在最后。”

以上讨论Vera Rubin的能效提升,有几个现实背景值得留意。一是,所有能耗对比均以英伟达官方公布的测试数据为基准,第三方独立验证结果还需等待产品正式出货。根据目前已公布的计划,相关产品预计在2026年下半年起从合作伙伴处陆续提供。二是,Vera Rubin单机架的整机功耗从上一代140kW大幅提升至约230kW,这对数据中心的供电和散热基础设施提出了更高的工程要求。三是,能耗降低并非Vera Rubin的唯一设计目标,其训练速度(提升3.5倍)和推理速度(提升5倍)也是同等重要的性能指标。

综合来看,Vera Rubin通过多芯片协同设计和系统级优化,在能效上实现了显著跃升。对于完成同等规模AI计算任务而言,推理场景的单位耗电最高可降至前代的十分之一左右,大型模型训练任务的整系统耗电最高可降至前代的四分之一左右。

这些数据主要基于英伟达官方披露的测试结果,最终实际表现有待产品大规模部署后的后续验证。但无论如何,这标志着AI计算从“拼绝对算力”进入了“拼算力效率”的新阶段,能效本身正在成为下一代AI基础设施竞争的核心维度之一。

参考资料:
英伟达中国技术博客.N VIDI A Vera Rubin POD:7 个芯片、5 个机架级系统、1 台 AI 超级计算机.2026年3月19日.