阿里通义千问的新架构在长文本推理上实现了10倍吞吐提升,仅用3.2%的计算资源就能达到此前旗舰模型相当的性能,开启AI模型“小参数大能量”时代。9月12日,阿里巴巴通义实验室正式推出新一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。这一创新架构通过混合注意力机制和高稀疏度MoE结构四大核心改进,实现了训练成本降低超90%和长文本推理吞吐量提升10倍的突破。
01 架构创新:四大技术突破重塑效率标杆
Qwen3-Next并非对原有模型的简单优化,而是针对大模型在上下文长度扩展和参数量扩展两大趋势的重新设计。新架构包含四项核心创新:混合注意力机制、高稀疏度MoE结构、训练稳定性优化以及多token预测机制。其中最引人注目的是混合注意力机制的设计。该机制采用75%的Gated DeltaNet线性注意力与25%的标准注意力相结合的策略。这种组合解决了单纯使用线性注意力或标准注意力的局限——前者在长序列建模上效率高但召回能力弱,后者计算开销大、推理不友好。
02 效率突破:训练成本降九成,推理速度升十倍
Qwen3-Next-80B-A3B模型总参数达800亿,但每次推理仅激活约30亿参数,激活比达到惊人的1:50。这一设计带来显著的效率提升。训练成本较密集模型Qwen3-32B降低超90%,长文本推理吞吐量提升10倍以上。具体而言,在4k tokens的上下文长度下,预填充阶段吞吐量接近Qwen3-32B模型的7倍;当上下文长度超过32k时,吞吐提升达到10倍以上。解码阶段同样表现优异——在4k上下文下实现近4倍吞吐提升,长上下文场景保持10倍优势。
03 性能表现:小参数媲美旗舰大模型
尽管激活参数大幅减少,Qwen3-Next的性能却令人印象深刻。测试数据显示,Base模型性能已接近Qwen3-32B密集模型的水平。指令模型(Instruct)在多项基准测试中达到与Qwen3-235B-A22B-Instruct-2507相当的水平。思维模型(Thinking)更是在部分复杂推理任务上超越Gemini-2.5-Flash-Thinking。在RULER基准测试的256k范围内,Qwen3-Next甚至击败了层数更多的Qwen3-235B-A22B-Instruct-2507。
04 技术细节:混合注意力与极致稀疏MoE
Qwen3-Next的混合注意力机制通过系统实验验证,Gated DeltaNet相比常用的滑动窗口注意力和Mamba2有更强的上下文学习能力。在保留的标准注意力中,团队引入了多项增强设计:输出门控机制缓解注意力中的低秩问题;将单个注意力头维度从128扩展至256;仅对注意力头前25%的位置维度添加旋转位置编码。MoE架构方面,Qwen3-Next从Qwen3 MoE的128个总专家和8个路由专家,扩展到了512总专家,10路由专家与1共享专家的组合。训练稳定性优化包括采用Zero-Centered RMSNorm并对norm weight施加weight decay,以及初始化时归一化MoE router参数。
05 多Token预测:推理效率的额外提升
Qwen3-Next引入了原生Multi-Token Prediction(MTP)机制,得到了Speculative Decoding接受率较高的MTP模块,提升了主干本身的综合性能。团队特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的Speculative Decoding接受率。这一设计受到开发者社区的高度评价,被认为是在保持模型性能的同时,为降低训练推理成本提供了创新解决方案。
06 开源生态:开发者可便捷获取使用
阿里通义已经将Qwen3-Next-80B-A3B系列模型权重在Hugging Face平台以Apache-2.0协议开源,支持通过Transformers、SGLang、vLLM等主流框架部署。开发者还可通过Qwen Chat免费体验或调用阿里云百炼平台API服务。第三方平台OpenRouter也已完成适配上线,方便开发者便捷调用相关能力。
沙利文数据显示,中国企业级大模型调用量2025年上半年日均较2024年底增长363%,阿里通义占比17.7%位列第一。通义千问衍生模型数已超17万,稳坐全球第一开源模型。Qwen3-Next的成功研发标志着AI模型发展从单纯追求参数规模转向效率与性能并重的新阶段。
阿里通义实验室透露,后续将持续优化架构并推进Qwen3.5研发,同时加快文生图、语音识别等多领域模型的开源进程。随着Qwen3-Next的开源,开发者社区获得了更强有力且经济高效的工具,这将进一步加速AI技术在各行业的普及和应用深化。