栏目分类
热点资讯
你的位置:科技前沿网 > 新兴技术 > 英伟达GB 300细节曝光,下一代GPU怪兽

新兴技术

英伟达GB 300细节曝光,下一代GPU怪兽

发布日期:2025-01-26 06:09    点击次数:185

英伟达GB 300细节曝光,下一代GPU怪兽

Nvidia 推出其第一代 Blackwell B200 系列处理器时际遇了陡立,原因是产量问题,而且还出现了几份未经证实的行状器过热叙述。有关词,据 SemiAnalysis报谈,Nvidia 的第二代Blackwell B300系列处理器似乎  行将问世。它们不仅具有更大的内存容量,而且性能提高了 50%,而TDP仅加多了 200W。

Nvidia 的 B300 系列处理器摄取了经由大幅调整的瞎想,仍将摄取台积电的 4NP 制造工艺(针对 Nvidia 进行优化的 4nm 级节点,性能增强),但叙述称,它们的筹画性能将比 B200 系列处理器向上 50%。性能进步的代价是高达 1,400W 的 TDP,仅比 GB200 高 200W。SemiAnalysis 称,B300 将在 B200 上市大要半年后上市。

Nvidia B300 系列的第二项紧要更恰是使用 12-Hi HBM3E 内存堆栈,可提供 288 GB 内存和 8 TB/s 带宽。增强的内存容量和更高的筹画混沌量将已矣更快的检修和推理,推理资本最多可裁减三倍,因为 B300 不错处理更大的批量大小并补助蔓延的序列长度,同期处治用户交互中的蔓延问题。

除了更高的筹画性能和更大的内存外,Nvidia 的第二代 Blackwell 机器还可能摄取该公司的 800G ConnectX-8 NIC。该 NIC 的带宽是面前 400G ConnectX-7 的两倍,而且有 48 个 PCIe 通谈,而其前代家具只须 32 个。这将为新行状器提供明显的横向蔓延带宽更正,这对大型集群来说是一个得手。

B300 和 GB300 的另一个紧要更恰是,与 B200 和 GB200 比拟,Nvidia 据称将再行瞎想通盘供应链。该公司将不再试图销售通盘参考主板或通盘行状器机箱。相背,Nvidia 将只销售搭载 SXM Puck 模块、Grace CPU 和 Axiado 主机治理顺次器 (HMC) 的 B300。因此,将允许更多公司参与 Blackwell 供应链,这有望使基于 Blackwell 的机器更容易获取。

借助 B300 和 GB300,Nvidia 将为其超大边界和 OEM 合营伙伴提供更多瞎想 Blackwell 机器的摆脱,这将影响它们的订价甚而性能。

Nvidia 的圣诞礼物:GB300 和 B300

在 GB200 和 B200 发布仅 6 个月后,他们就向阛阓推出了一款全新的 GPU,名为 GB300 和 B300。天然名义上听起来仅仅渐进式的,但执行恶果远超预期。

这些变化尤其进击,因为它们包括对推理模子推理和检修性能的渊博进步。Nvidia 为总共超大边界企业,尤其是亚马逊、供应链中的某些参与者、内存供应商过火投资者准备了一份极端的圣诞礼物。跟着向 B300 的升沉,通盘供应链正在重组和出动,为好多赢家带来了礼物,但也有一些输家得到了煤炭。

B300 GPU 是基于 TSMC 4NP 工艺节点的全新流片,也便是说,它是针对筹画芯片的微调瞎想。这使得 GPU 在家具层面上偶而提供比 B200高 50% 的 FLOPS。部分性能进步将来自 200W 的额外功率,GB300 和 B300 HGX 的 TDP 鉴识达到 1.4KW 和 1.2KW(而 GB200 和 B200 的 TDP 鉴识为 1.2KW 和 1KW)。

其余性能进步将来自架构增强和系统级增强,举例 CPU 和 GPU 之间的功率浮动。功率浮动是指 CPU 和 GPU 之间动态再行分派功率

除了 FLOPS 加多外,内存还从 8-Hi 升级到 12-Hi HBM3E,每个 GPU 的 HBM 容量加多到 288GB。可是,引脚速率将保执不变,因此内存带宽仍为每 GPU 8TB/s。请精通,三星正在从圣诞老东谈主那儿获取煤炭,因为他们至少在畴昔 9 个月内无法投入 GB200 或 GB300。

此外,Nvidia 也因为圣诞节的报怨,是以订价也颠倒挑升旨真谛。这调动了 Blackwell 的利润率,但以后再究诘订价和利润率的问题。开端要究诘的是性能变化。

为推理模子推理而构建

由于长序列长度会加多 KVCache,从而顺次要津批次大小和蔓延,因此内存的更恰是 OpenAI O3 作风 LLM 推理检修和推理的要津。

下图清晰了 Nvidia 面前几代 GPU 在 1k 输入token、19k 输出token上运行对token经济学的更正,这访佛于 OpenAI 的 o1 和 o3 模子中的想路链。这个演示性的屋顶线模拟是在 FP8 的 LLAMA 405B 上运行的,因为它是咱们不错使用 H100 和 H200 GPU(咱们不错看望的 GPU)模拟的最好内行模子。

从 H100 升级到 H200 地谈是内存更大、速率更快的升级,有两个恶果。

由于内存带宽更大,总共可比批次大小的交互性普遍提高了 43%(H200 @ 4.8TB/s vs H100 @ 3.35TB/s)。

由于 H200 运行的批处理大小比 H100 大,每秒可生成 3 倍的令牌,因此资本裁减了约 3 倍。这种各异主如果因为 KVCache 顺次了总批处理大小。

更大内存容量带来的动态变化似乎弗成比例的平允是渊博的。关于操作员来说,这两款 GPU 之间的性能和经济各异比纸面上的规格所默示的要大得多:

由于请乞降反馈之间恭候手艺过长,推理模子的用户体验可能会很差。如果您不错提供更快的推理手艺,这将加多用户使用和付费的倾向。

3 倍的资本各异是渊博的。坦率地说,通过中代内存升级已矣 3 倍性能进步的硬件是荒诞的,比摩尔定律、黄定律或咱们所见过的任何其他硬件更正速率都要快得多。

咱们不雅察到,最强盛和各异化的模子偶而比能力稍差的模子收取更高的用度。前沿模子的毛利率独特 70%,但逾期模子的利润率低于 20%。推理模子无谓是一条想路。搜索是存在的,而且不错蔓延以提高性能,就像 O1 Pro 和 O3 中所作念的那样。这使得更智能的模子偶而处治更多问题,并为每个 GPU 产生更多收入。

天然,Nvidia 并不是独逐一家偶而加多内存容量的公司。ASIC 不错作念到这少量,事实上,AMD 可能处于故意地位,因为它们的内存容量比 Nvidia 更高,一般来说,MI300X 的内存容量为 192GB,MI325X 的内存容量为 256GB,MI350X 的内存容量为 288GB……不外圣诞老东谈主黄有一只叫作念 NVLink 的红鼻子驯鹿。

当咱们转向 GB200 NVL72 和 GB300 NVL72 时,基于 Nvidia 的系统的性能和资本将大幅进步。在推理中使用 NVL72 的要津点在于它偶而让 72 个 GPU 以极低的蔓延处理兼并个问题,分享内存。寰宇上莫得其他加快工具有全对全交换连结。寰宇上莫得其他加快器不错通过交换机完成总共缩减。

Nvidia 的 GB200 NVL72 和 GB300 NVL72 关于已矣好多要津功能至关进击。

更高的交互性使得每个想路链的蔓延更低。

72 个 GPU 散播 KVCache,以已矣更长的想维链(提高智能)。

与典型的 8 GPU 行状器比拟,批量大小蔓延恶果更好,从而裁减了资本。

通过搜索更种种原本处治兼并问题,不错提高准确性并最终提高模子性能。

因此,使用 NVL72 的token经济学要好 10 倍以上,尤其是在长推理链上。KVCache 破钞内存对经济来说是致命的,但 NVL72 是将推理长度蔓延到高批次 100k+ token的独一交替。

Blackwell 供应链为 GB300 再行瞎想

跟着 GB300 的推出,Nvidia 提供的供应链和内容发生了渊博变化。关于 GB200,Nvidia 提供通盘 Bianca 主板(包括 Blackwell GPU、Grace CPU、512GB LPDDR5X、VRM 内容,沿途集成在一个 PCB 上),以及开关托盘和铜背板。

关于 GB300,Nvidia 不会提供通盘 Bianca 主板,而是仅提供“SXM Puck”模块上的 B300、BGA 封装上的 Grace CPU 以及来自好意思国初创公司 Axiado 而非 GB200 的 Aspeed 的 HMC。

最终客户咫尺将径直采购筹画板上的剩余组件,第二层内存将是 LPCAMM 模块,而不是焊合的 LPDDR5X。好意思光将成为这些模块的主要供应商。

交换机托盘和铜背板保执不变,这些组件沿途由 Nvidia 提供。

转向 SXM Puck 为更多 OEM 和 ODM 参与筹画托盘提供了契机。昔日只须 Wistron 和 FII 不错制造 Bianca 筹画板,咫尺更多的 OEM 和 ODM 不错制造。Wistron 是 ODM 方面最大的输家,因为它失去了 Bianca 板的份额。关于 FII 来说,Bianca 板层面的份额亏空被他们是 SXM Puck 和 SXM Puck 所依赖的插槽的独家制造商这一事实所对消。Nvidia 正试图为 Puck 和插槽引入其他供应商,但他们尚未下任何其他订单。

另一个紧要出动是 VRM 内容。天然 SXM Puck 上有一些 VRM 内容,但大部分板载 VRM 内容将由超大边界制造商/OEM 径直从 VRM 供应商处采购。10 月 25 日,咱们向Core Research 订阅者发送了一份讲明,讲明 B300 若何重塑供应链,极端是围绕电压疗养器模块(“VRM”)。咱们极端指出了单片电源系统将若何因交易样式的出动而失去阛阓份额,以及哪些新投入者正在获取阛阓份额。在咱们向客户发送说光泽的一个月内,由于阛阓意志到了咱们开熟察关中的事实,MPWR 下落了 37% 以上。

Nvidia 还在 GB300 平台上提供 800G ConnectX-8 NIC,在 InfiniBand 和以太网上提供两倍的横向蔓延带宽。Nvidia 不久前取消了 GB200 的 ConnectX-8,原因是上市手艺复杂,而且袪除在 Bianca 板上启用 PCIe Gen 6。

ConnectX-8 比拟 ConnectX-7 有了渊博更正。它不仅领有 2 倍带宽,还领有 48 个 PCIe 通谈(而非 32 个 PCIe 通谈),从而补助特有的架构,举例风冷 MGX B300A。此外,ConnectX-8 还补助 SpectrumX ,而在之前的 400G 代家具中,SpectrumX 所需的Bluefield 3 DPU 遵循要低得多。

GB300 对超大边界的影响

GB200 和 GB300 蔓延对超大边界筹画的影响意味着,从第三季度运转,好多订单将转向 Nvidia 新的更不菲的 GPU。顺次上周,总共超大边界筹画公司都已决定络续使用 GB300。部分原因是 GB300 的性能因更高的 FLOPS 和更大的内存而提高,但也有一部分原因是他们偶而掌控我方的红运。

由于上市手艺的挑战以及机架、冷却和电力运输/密度的紧要变化,超大边界企业无法在行状器级别对 GB200 进行太大的革新。这导致 Meta 袪除了偶而从 Broadcom 和 Nvidia 多源获取 NIC 的总共但愿,转而王人备依赖 Nvidia。在其他情况下,举例 Google,他们袪除了里面 NIC,转而只与 Nvidia 合营。

关于超大边界的数千东谈主组织来说,这就像黑板上的钉子通常,他们风气于对从 CPU 到收罗,甚而螺丝和金属板的总共东西进行资本优化。

最令东谈主恐慌的例子是亚马逊,它聘请了相等次优的成就,与参考瞎想比拟,TCO 更差。由于使用 PCIe 交换机和遵循较低的 200G Elastic Fabric Adaptor NIC(需要风冷),亚马逊无法部署 NVL72 机架,如 Meta、Google、Microsoft、Oracle、X.AI 和 Coreweave。由于其里面 NIC,亚马逊不得不使用 NVL36,由于背板和交换机内容更多,每个 GPU 的资本也更高。一言以蔽之,由于定制方面的顺次,亚马逊的成就不是最优的。

咫尺,借助 GB300,超大边界数据中心运营商偶而定制主板、冷却系统等。这使得亚马逊偶而构建我方的定制主板,该主板摄取水冷,并集成了之前摄取风冷的组件,举例 Astera Labs PCIe 交换机。在 25 年第三季度,水冷更多组件以及最终在 K2V6 400G NIC 上已矣 HVM 意味着亚马逊不错再行转向 NVL72 架构并大大改善其 TCO。

不外,有一个很大的谬误,那便是超大边界企业必须进行多数的瞎想、考据和说明责任。这无疑是超大边界企业有史以来必须瞎想的最复杂的平台(谷歌的 TPU 系统以外)。某些超大边界企业将偶而快速瞎想,但其他团队速率较慢的企业则逾期了。总体而言,尽管有阛阓取消叙述,但咱们以为微软是部署 GB300 速率最慢的企业之一,原因是瞎想速率太快,他们仍在第四季度购买一些 GB200。

由于组件从 Nvidia 的利润堆积中抽出,升沉到 ODM 身上,因此客户支付的总价钱收支很大。ODM 的收入会受到影响,最进击的是,Nvidia 的毛利率也会在一年内发生变化。

著作来源:半导体行业不雅察,原文标题:《英伟达GB 300细节曝光,下一代GPU怪兽》

风险领导及免责条件 阛阓有风险,投资需严慎。本文不组成个东谈主投资冷漠,也未探讨到个别用户特殊的投资野心、财务情状或需要。用户应试虑本文中的任何办法、不雅点或论断是否合适其特定情状。据此投资,包袱自诩。