万亿参数、仅激活500亿、全面开源,这款“非思考”模型在复杂推理任务中表现卓越,甚至超越部分国际顶级模型。
蚂蚁集团于10月9日正式发布并开源了其百灵大模型Ling 2.0系列的首款旗舰产品——万亿参数通用语言模型Ling-1T。
作为蚂蚁百灵团队迄今规模最大、能力最强的“非思考”大模型,Ling-1T通过在有限输出token条件下的精准推理,在多项复杂推理基准测试中取得SOTA表现。
该模型采用自研MoE架构,总参数量高达1万亿,推理时仅激活约500亿参数,以“大参数储备+小参数激活”的创新范式,实现了性能与效率的平衡。
01 模型定位:专注“非思考”高效推理
Ling-1T被官方定位为“旗舰非思考模型”,这一概念与传统“思考模型”形成鲜明对比。
思考模型如OpenAI的o1和DeepSeek-R1,通过生成大量中间推理token、构建长推理链来提升准确率,而Ling-1T的设计目标截然不同。
它追求在有限的输出token内,直接给出高质量的推理结果。
在AIME 25美国高中数学竞赛基准测试中,Ling-1T以70.42%的准确率与Gemini 2.5 Pro(70.10%)表现相当,但平均推理长度仅为约4300个token,比后者少了约40%。
这种“高效思考与精确推理”的平衡,使Ling-1T在需要快速响应的实际应用场景中具有显著优势。
02 技术架构:万亿参数MoE设计突破
Ling-1T的技术架构代表了中国在大模型技术前沿的最新突破。
模型采用混合专家架构,总参数达到1万亿,每次推理仅激活约500亿参数,激活比为1/32。
架构设计上,Ling-1T前几层采用密集结构,后面才切换至MoE。
这种“前k密集”设计主要为了缓解浅层网络的专家路由不均衡问题,提升模型整体稳定性。
训练过程全程采用FP8混合精度训练技术,这是目前已知规模最大的使用FP8训练的基座模型。
FP8训练带来了显著的显存节省、更灵活的并行切分策略和15%以上的端到端加速,同时在1万亿token训练中保持与BF16精度损失偏差≤0.1%。
03 训练数据:高推理浓度语料赋能
Ling-1T-base在超过20T token的高质量、高推理浓度语料上完成了预训练。
整个预训练过程分为两个关键阶段:
- 前10T token主要使用高知识密度语料
- 后10T token则引入高推理密度语料,使整体推理相关语料占比超过40%
在中训练阶段,团队进一步加入了高质量的思维链推理语料,实现模型推理能力的“预激活”,为后训练阶段提供更高的推理上限和更稳定的思维基础。
模型支持最高128K上下文窗口,适配法律、科研等长文档场景。
通过“中训练+后训练”的演进式思维链技术,模型的高效推理能力得到极大提升。
04 性能表现:多项测试超越顶级模型
Ling-1T在复杂推理基准测试中展现出卓越性能。
在数学推理领域,Ling-1T在7项数学与推理能力基准测试中获得SOTA表现。
在AIME 25基准测试中准确率达70.42%,在Omni-Math数学测试中突破74分,金融推理准确率高达87.45%。
编程能力方面,Ling-1T同样表现突出。
在LiveCodeBench编程测试中得分居首,在MultiPL-E、CodeForces-ranking及FullStack Bench等编程能力基准测试中,超越DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905及闭源的GPT-5-main、Gemini-2.5-Pro。
在AI代码生成评测标准ArtifactsBench上,Ling-1T在开源模型中排名第一。
值得注意的是,本文中的基准可视化内容实际均由Ling-1T自身生成,展示了其强大的代码生成能力。
05 应用场景:从代码生成到复杂问题解决
Ling-1T在应用层面展现出广泛潜力。
它能够解析复杂自然语言指令,将抽象逻辑转化为功能化视觉组件。
根据演示,Ling-1T可以开发一个展示《三体》主要人物关系及阵营的图谱页面,并提供详细的视觉效果要求(配色、风格、鼠标悬停效果等)。
它还能根据要求开发Crane云平台网页,完整实现用户登录、数据仪表盘、客户管理、设备管理等功能。
在BFCL V3工具使用基准测试中,Ling-1T仅通过轻度指令微调即实现约70%的工具调用准确率,尽管训练期间未接触大规模轨迹数据。
模型还能对六种常见的优化问题(线性规划、旅行商问题等)进行求解并同时用pygame生成教学演示动画,并能进行上海一日游行程规划,并开发页面利用mapbox地图引擎展示整个行程。
06 开源生态:助力开发者社区创新
蚂蚁集团已全面开源Ling-1T,开发者可通过多个平台访问模型。
开源地址包括HuggingFace、ModelScope和GitHub,同时提供了面向国内用户的Ling chat体验平台和面向海外开发者的ZenMux平台(提供Chat测试与API等能力)。
此举进一步壮大了中国开源大模型阵营,为产业级AI应用提供高性价比解决方案。
Ling-1T的发布标志着大模型发展从单纯追求参数规模向实用化、高效化迈进。
正如蚂蚁集团CTO何征宇所言:“在蚂蚁集团,我们相信人工智能应该是公共物品——人类智能未来的共享里程碑。”
随着Ling-1T的开源,全球开发者现在可以亲身体验这一万亿参数模型的卓越性能,并在其基础上构建更多创新应用。
大模型竞争正进入一个更加注重实际效用的新阶段。