
万亿参数模型正将数据中心变成巨大的AI工厂,而背后连接数百万GPU的“神经系统”正在迎来革命性升级。
英伟达在10月13日的OCP峰会上宣布,Meta和甲骨文两家科技巨头将采用其Spectrum-X以太网交换机来构建AI数据中心网络。这一合作将Spectrum-X确立为开放式加速网络架构标准,旨在应对万亿参数模型时代的数据传输挑战。
对于正竞相构建更大规模AI模型的企业来说,这一网络升级意味着AI训练效率的指数级提升和大规模快速部署能力。
01 行业标准确立
超大规模企业正在将Spectrum-X以太网交换机标准化为一种开放的加速网络架构。
Meta将把Spectrum以太网交换机集成到其Facebook开放交换系统(FBOSS)的网络基础设施中。
FBOSS是一个为大规模管理与控制网络交换机而开发的软件平台。
甲骨文则计划采用Spectrum-X以太网交换机构建千兆规模的AI超级计算机,形成由英伟达Vera Rubin架构提供加速并通过Spectrum-X以太网进行互连的AI工厂。
甲骨文云基础设施执行副总裁Mahesh Thiagarajan指出:“甲骨文云基础设施专为AI工作负载而设计,我们与英伟达的合作进一步巩固了我们在AI领域的领先地位。”
02 技术需求革新
英伟达创始人兼首席执行官黄仁勋在声明中强调了万亿参数模型对数据中心架构的影响。
“万亿参数模型正在将数据中心转变为千兆规模的AI工厂”。
他表示,行业领导者如Meta和甲骨文正采用Spectrum-X以太网来推动这场工业革命。
传统以太网在AI工作负载大规模部署中饱受性能限制。
据英伟达介绍,通用以太网在规模部署中会发生不计其数的流量冲突,导致吞吐量降低至约60%的水平。
而Spectrum-X以其先进的拥塞控制技术,助力全球最大的AI超级计算机实现了95%的数据吞吐量。
这一效率飞跃标志着面向AI的大规模网络在经济效益和性能方面实现了突破性进展。
03 网络架构升级
Spectrum-X以太网网络平台是业界首个专为AI构建的以太网平台。
它由Spectrum-X以太网交换机和Spectrum-X以太网SuperNIC组成,能够帮助超大规模企业以前所未有的效率和规模互连数百万个GPU。
技术特性包括先进的拥塞控制、动态路由以及AI驱动的遥测功能。
这些技术可确保大规模AI训练和推理集群的效率和可预测性。
Spectrum-XGS以太网技术作为Spectrum-X以太网网络平台的一部分,还可实现跨区域扩展。
这种能力可将跨城市、国家乃至跨大陆的数据中心连接成超大规模的千兆级AI超级工厂。
04 战略布局加速
Meta的网络工程副总裁Gaya Nagarajan表示:“Meta的新一代AI基础设施需要业界前所未有的大规模、开放且高效的网络。”
通过将NVIDIA Spectrum以太网集成到Minipack3N交换机和FBOSS中,Meta既可以扩展其开放网络平台,又可以提升训练更大规模模型的效率和可预测性。
这对于为数十亿用户提供生成式AI服务至关重要。
甲骨文则计划构建由英伟达Vera Rubin架构加速并通过Spectrum-X以太网互连的千兆规模AI工厂。
这将显著增强其AI云服务能力。
Mahesh Thiagarajan表示:“通过采用Spectrum-X以太网网络,我们能够以突破性的效率实现数百万个GPU的互连,帮助客户更快速地训练和部署新一代生成式和推理AI,并从中受益。”
英伟达Spectrum-X代表的不仅是一次产品升级,更是AI基础设施标准化进程中的重要里程碑。
借助Spectrum-X,超大规模企业能够将跨城市、国家乃至跨大陆的数据中心连接成统一的千兆级AI超级工厂。
在可预见的未来,随着2026年底Vera Rubin架构产品上市,AI工厂的运算边界将再次扩展。