高达750 PFLOPs的算力在128个节点、1024块AMD GPU上奔腾,全球首个完全基于AMD硬件生态训练的大型混合专家模型正式登场。
当地时间11月24日,AMD与AI初创公司Zyphra共同宣布,成功训练出全球首个完全基于AMD硬件平台的大型混合专家模型——ZAYA1。
这一突破性成果标志着AMD首次在 frontier-scale AI 训练领域展现出可与行业领导者竞争的完整技术栈能力。
ZAYA1-base模型凭借8.3B总参数、760M激活参数的配置,在多项基准测试中性能对标Qwen3-4B、Gemma3-12B等领先模型,甚至在数学和编码任务中表现更优。
01 破局者:AMD平台的里程碑
长期以来,高端AI训练领域几乎由单一厂商垄断,Zyphra与AMD、IBM的合作为市场带来了期待已久的多样性。
这次合作证明了AMD的GPU、网络和软件生态系统已达到生产就绪状态,能够支持前沿AI模型的大规模训练任务。
AMD Instinct MI300X GPU的192GB高带宽内存在此次训练中发挥了关键作用,它使得Zyphra能够避免昂贵的专家或张量分片,大大简化了训练流程并提高了吞吐量。
Zyphra的CEO Krithik Puthalath表示:“效率一直是Zyphra的核心指导原则。ZAYA1体现了我们的理念,我们很高兴成为第一家在AMD平台上演示大规模训练的公司。”
02 技术架构:CCA注意力与MoE创新
ZAYA1引入了几项关键的架构创新,使其在效率和质量上实现了显著提升。
该模型采用了压缩卷积注意力(CCA) ,这是一种在压缩潜在空间中进行序列混合的新方法。与标准多头注意力相比,CCA实现了KV缓存8倍压缩,大幅降低了计算需求。
Zyphra还开发了更高效的路由器设计,用MLP取代标准线性门,促进了更专业的专家 specialization,并成功实现了top-k为1的训练(无需残差专家)。
在训练数据方面,ZAYA1接受了高达14T token的大规模训练,涵盖了从通用网页到数学、代码和推理内容的课程学习。
03 硬件基础设施:1024块AMD GPU的威力
为训练ZAYA1,三方构建了强大的计算集群,该集群位于IBM Cloud上,包含128个计算节点,每个节点配备8块AMD Instinct MI300X GPU,总计1024块GPU。
这一基础设施还集成了AMD Pensando Pollara 400Gbps网络接口卡,每个节点提供高达3.2Tbps的带宽。
在软件层面,Zyphra依靠AMD ROCm开放软件平台进行训练,并开发了关键的自定义HIP内核,以优化在AMD硬件上的性能。
集群的峰值计算性能超过750 PFLOPs(每秒千万亿次浮点运算),为模型的高效训练提供了强大算力保障。
04 性能表现:以小博大的实力验证
根据Zyphra于11月14日进行的基准测试,ZAYA1-base展现出了令人印象深刻的性能。
该模型在推理、数学和编码基准测试中超越了Llama-3-8B和OLMoE,并与Qwen3-4B和Gemma3-12B等更大型的模型表现相当甚至更优。
特别值得一提的是,ZAYA1-base在复杂数学和STEM推理任务中表现突出,其推理专用检查点在未经过显式指令微调的情况下,已接近Qwen3-4B-Thinking等最先进推理模型的性能。
Zyphra开发了两大核心基础设施组件以确保训练稳定性:Aegis容错系统可自动识别并缓解常见故障;分布式检查点方案将检查点时间减少了10倍以上。
行业分析师指出,ZAYA1的成功训练证明了AMD平台作为英伟达替代方案的可行性。
随着更多厂商有望复制“纯AMD”集群方案,AI训练市场将迎来更丰富的硬件选择,推动整个行业向更开放、多元化的生态发展。