订阅费用高达每月249.99美元的谷歌AI Ultra服务迎来重磅更新,其全新“深度思考”模式在复杂数学和逻辑问题上的表现已达到国际竞赛金牌水平。
谷歌于2025年12月初宣布,向付费订阅用户推出全新的Gemini 3 Deep Think模式。这一功能作为其最高端AI Ultra订阅计划的一部分,针对专业研究人员和高级开发者,每月费用为249.99美元。
01 核心特性与获取方式
谷歌Gemini 3 Deep Think已完全集成至Gemini移动应用程序中。用户需要在应用内的提示栏中选择“Deep Think”选项,并确保Gemini 3 Pro模型处于激活状态才能使用该功能。
该模式区别于标准版Gemini 3 Pro的关键在于调用了更多的计算资源,并采用了全新的技术架构。
Deep Think的核心设计目标是处理那些即使是顶级模型也感到压力的数学、科学和逻辑难题。谷歌希望它成为专业研究人员、高级开发者和需要最大计算深度与最高使用限制的高阶用户的有力工具。
02 技术突破与性能表现
Deep Think模式的突破在于其“高级并行推理”机制。与传统模型线性处理问题的思路不同,它能够同时运行多条思维线,探索多种假设,从而深入挖掘复杂问题而非仅仅追求快速答案。
这个过程类似于人类在面对难题时,大脑同时产生多种解决思路并进行比较的过程。该模式在多项行业基准测试中取得了领先成绩,确立了新的性能标杆。
在Humanity’s Last Exam测试中,Deep Think在无工具辅助的情况下取得了41.0%的成绩;在需要代码执行的ARC-AGI-2抽象推理评估中,得分达到45.1%;在针对博士级科学推理水平的GPQA Diamond测试中,准确率高达93.8%。
这些成绩使Deep Think跻身当前可用的最强推理系统之列,尤其在处理多步骤或隐藏逻辑层的问题上表现突出。
03 与Gemini 3 Pro的性能对比
根据Red94网络提供的数据,Deep Think模式在关键指标上相比标准版的Gemini 3 Pro有了显著提升。例如,在Humanity’s Last Exam测试中,Deep Think的得分从37.5%提升至41.0%。
在GPQA Diamond科学知识评估中,准确率从91.9%进一步提高到93.8%。此前,采用类似技术的模型变体已经在国际数学奥林匹克竞赛和国际大学生程序设计竞赛的世界总决赛模拟环境中达到了“金牌标准”。
尤其是在模拟IMO的严苛条件下,模型需要在无网络和外部工具的情况下,于两个各4.5小时的考试周期内独立完成解题并生成完整的自然语言证明过程。
04 市场定位与竞争环境
Gemini 3 Deep Think的推出被视为谷歌在高端AI推理能力竞争中的重要举措。科技新闻网站ZOL的分析认为,这可能会加速推动其他主要AI厂商加快相关技术的产品化进程,预示着大模型在高阶推理能力方面的竞争将进一步加剧。
在竞争方面,国内AI公司深度求索于12月初发布的DeepSeek-V3.2-Speciale模型也表现出了强劲实力。它在AIME 2025数学竞赛中取得了96.0%的通过率,与GPT-5和Gemini 3.0 Pro的性能相匹敌。
这一动态反映出人工智能行业正朝着高级推理能力的方向展开激烈竞争,目标是实现能够匹敌人类水平的问题解决能力。
05 影响与应用前景
Deep Think模式的推出意味着企业和研究者现在可以运用能够一步步思考问题的AI,而不仅仅是生成快速响应。这种深度推理能力对科学研究、软件开发、数学发现和战略规划等领域具有直接的变革意义。
例如,在软件开发领域,谷歌的新智能体开发平台“Antigravity”展示了这种演进。它由Gemini 3的推理和工具使用能力驱动,使智能体能够自主规划和执行复杂的端到端软件任务,同时验证自己的代码。
对于开发者和研究人员而言,Gemini 3通过Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub和JetBrains等第三方平台提供。这种广泛的访问渠道加速了软件工程、科学发现和创意应用等领域的创新。
Deep Think的发布立即触发了行业内的连锁反应。领先的编程编辑器Cursor报告称,Gemini已成为其平台上增长最快的模型。同时,谷歌系统每月处理的token数量在一年内从9.7万亿激增至480万亿,增幅接近50倍。
行业关注的焦点已不再是AI能否完成任务,而是它能否系统而可靠地思考全新的复杂挑战。在谷歌Gemini 3 Deep Think和深度求索最新模型的共同推动下,一场围绕机器思考深度的竞赛已拉开帷幕。