全球首个“纯AMD”大模型ZAYA1发布！14T tokens训练，性能对标Qwen3_资讯

全球首个“纯AMD”大模型ZAYA1发布！14T tokens训练，性能对标Qwen3

作者：安安

 时间：2025-11-26 13:58:36

高达750 PFLOPs的算力在128个节点、1024块AMD GPU上奔腾，全球首个完全基于AMD硬件生态训练的大型混合专家模型正式登场。

当地时间11月24日，AMD与AI初创公司Zyphra共同宣布，成功训练出全球首个完全基于AMD硬件平台的大型混合专家模型——ZAYA1。

这一突破性成果标志着AMD首次在 frontier-scale AI 训练领域展现出可与行业领导者竞争的完整技术栈能力。

ZAYA1-base模型凭借8.3B总参数、760M激活参数的配置，在多项基准测试中性能对标Qwen3-4B、Gemma3-12B等领先模型，甚至在数学和编码任务中表现更优。

01 破局者：AMD平台的里程碑

长期以来，高端AI训练领域几乎由单一厂商垄断，Zyphra与AMD、IBM的合作为市场带来了期待已久的多样性。

这次合作证明了AMD的GPU、网络和软件生态系统已达到生产就绪状态，能够支持前沿AI模型的大规模训练任务。

AMD Instinct MI300X GPU的192GB高带宽内存在此次训练中发挥了关键作用，它使得Zyphra能够避免昂贵的专家或张量分片，大大简化了训练流程并提高了吞吐量。

Zyphra的CEO Krithik Puthalath表示：“效率一直是Zyphra的核心指导原则。ZAYA1体现了我们的理念，我们很高兴成为第一家在AMD平台上演示大规模训练的公司。”

02 技术架构：CCA注意力与MoE创新

ZAYA1引入了几项关键的架构创新，使其在效率和质量上实现了显著提升。

该模型采用了压缩卷积注意力（CCA），这是一种在压缩潜在空间中进行序列混合的新方法。与标准多头注意力相比，CCA实现了KV缓存8倍压缩，大幅降低了计算需求。

Zyphra还开发了更高效的路由器设计，用MLP取代标准线性门，促进了更专业的专家 specialization，并成功实现了top-k为1的训练（无需残差专家）。

在训练数据方面，ZAYA1接受了高达14T token的大规模训练，涵盖了从通用网页到数学、代码和推理内容的课程学习。

03 硬件基础设施：1024块AMD GPU的威力

为训练ZAYA1，三方构建了强大的计算集群，该集群位于IBM Cloud上，包含128个计算节点，每个节点配备8块AMD Instinct MI300X GPU，总计1024块GPU。

这一基础设施还集成了AMD Pensando Pollara 400Gbps网络接口卡，每个节点提供高达3.2Tbps的带宽。

在软件层面，Zyphra依靠AMD ROCm开放软件平台进行训练，并开发了关键的自定义HIP内核，以优化在AMD硬件上的性能。

集群的峰值计算性能超过750 PFLOPs（每秒千万亿次浮点运算），为模型的高效训练提供了强大算力保障。

04 性能表现：以小博大的实力验证

根据Zyphra于11月14日进行的基准测试，ZAYA1-base展现出了令人印象深刻的性能。

该模型在推理、数学和编码基准测试中超越了Llama-3-8B和OLMoE，并与Qwen3-4B和Gemma3-12B等更大型的模型表现相当甚至更优。

特别值得一提的是，ZAYA1-base在复杂数学和STEM推理任务中表现突出，其推理专用检查点在未经过显式指令微调的情况下，已接近Qwen3-4B-Thinking等最先进推理模型的性能。

Zyphra开发了两大核心基础设施组件以确保训练稳定性：Aegis容错系统可自动识别并缓解常见故障；分布式检查点方案将检查点时间减少了10倍以上。

行业分析师指出，ZAYA1的成功训练证明了AMD平台作为英伟达替代方案的可行性。

随着更多厂商有望复制“纯AMD”集群方案，AI训练市场将迎来更丰富的硬件选择，推动整个行业向更开放、多元化的生态发展。

分享到：

抖音电商严打 AI 技术滥用行为,多举措保障消费者权益

 2025-09-04
制造业数字化高质量发展工业管理软件跃入新时代！

 2022-11-01
豆包 App 视觉推理能力实现重大升级深度分析功能引领智能体验革新

 2025-07-30
危机？每日优鲜被爆大规模集体劳动仲裁！

 2023-05-30
宇树科技人形机器人 H1斩获全球赛事 1500 米首金，创机器人运动史里程碑！

 2025-08-18
Infosys高亮：引起互动的传播才能成就业务增长

 2022-11-01

热门标签

抖音电商严打 AI 技术滥用行为,多举措保障消费者权益

制造业数字化高质量发展工业管理软件跃入新时代！

豆包 App 视觉推理能力实现重大升级深度分析功能引领智能体验革新

危机？每日优鲜被爆大规模集体劳动仲裁！

宇树科技人形机器人 H1斩获全球赛事 1500 米首金，创机器人运动史里程碑！

Infosys高亮：引起互动的传播才能成就业务增长

Trae2.0重磅发布—一个具备上下文工程能力的系统

AI 提示词管理工具 AI Gist 正式上线

物流机器人时代要来了？！

字节跳动 AI 编程工具 TRAE 2.0 即将发布，新增语音交互功能

AI导游重塑文旅及物流消费体验

魔镜洞察

拜特科技

奇墨科技

致远互联

滴普科技

关于Tech技术加

快速导航

热门推荐

关注我们

微信在线客服

电话： +86 15618587198