在“人类最后的测试”中,它交出了58.3分的答卷,这个分数超越了全球领先的GPT-5.2-Thinking,而这个测试涉及科学、数学和代码编程等多领域的复杂问题解决能力。
1月26日,阿里巴巴正式发布千问旗舰推理模型Qwen3-Max-Thinking。这款拥有超过万亿参数的庞然大物,被设计用来处理最复杂的逻辑推理任务。
模型性能在GPQA、IMO-AnswerBench、LiveCodeBench等19项权威基准测试中刷新全球纪录,表现足以媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等国际顶尖模型。
01 技术突破
阿里此次发布的Qwen3-Max-Thinking,代表了国产大模型在复杂推理领域的新高度。这个模型基于去年9月发布的Qwen3-Max开发,是其专注于推理任务的增强版本。
在模型规模上,Qwen3-Max-Thinking达到了惊人的超万亿参数,预训练数据量高达36T Tokens。这一规模为模型的复杂推理能力奠定了坚实基础。
据阿里方面介绍,Qwen3-Max-Thinking通过极致的规模扩展,实现了性能的飞跃,在多项关键性能基准测试中表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型。
02 核心创新
Qwen3-Max-Thinking引入了两项革命性技术创新,这或许是它能在复杂推理任务中表现出色的关键。
测试时扩展技术使模型能够对推理结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同计算资源下实现更高效的推理。这种机制让模型在提升推理性能的同时更加经济高效。
在关键的“人类最后的测试”中,该模型取得58.3分的成绩,超越了GPT-5.2-Thinking。
自适应工具调用能力允许模型根据任务需要自主调用搜索引擎、代码解释器等多种工具。这种能力让模型能够像人类一样,在解决问题时灵活运用各种工具资源。
03 推理引擎
Qwen3-Max-Thinking被设计为一个真正的推理引擎,而不仅仅是回答问题。
它能够深入理解复杂问题背后的逻辑关系,进行多步骤推理,并调用适当的工具来辅助决策。
在模型训练过程中,通义团队对模型在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,这使得Qwen3-Max-Thinking拥有更智能的结合工具进行思考的能力。
相较于之前版本,新模型的幻觉问题也大为降低,为解决真实复杂任务打下了基础。
04 应用场景
Qwen3-Max-Thinking的发布,意味着AI在解决复杂实际问题方面迈出了重要一步。
在科学研究和工程领域,它可以协助研究人员进行复杂的数据分析和假设验证;在金融和法律行业,它能够帮助专业人士处理需要多步骤逻辑推理的复杂案例分析。
在教育和培训领域,这一模型可以作为高水平的智能导师,指导学生解决复杂的数学、物理和编程问题,提供类似人类专家的分步骤指导和解释。
对于企业用户,模型提供的自适应工具调用能力为构建高度自主的AI助手和智能代理开辟了新的可能性。
05 获取渠道
目前,Qwen3-Max-Thinking已面向不同用户群体提供多种访问渠道。
普通用户可通过千问PC端和网页端试用新模型,只需在模型选择栏中一键切换,即可体验这一强大的推理模型。
对于开发者和企业用户,可以通过阿里云百炼平台调用API服务,将这一强大的推理能力集成到自己的应用和系统中。
据了解,千问手机APP也即将接入这一模型,届时所有用户都可以在移动设备上免费体验这一阿里最强的推理模型。
随着Qwen3-Max-Thinking的上线,中国大模型在复杂推理能力上达到了新的高度。
当逻辑推理不再是人类智力的专属领域,而成为人工智能可以掌握的核心能力时,整个社会的知识工作方式都将面临重塑。这或许是Qwen3-Max-Thinking留给我们的最深刻启示。