在OpenAI发布GPT-5.2前夕,谷歌抢先一小时,宣布了足以改写AI应用开发规则的重大更新。
北京时间12月12日凌晨,谷歌正式推出全新版Gemini Deep Research智能体,并首次向开发者开放其API接口。
这一举措标志着谷歌最顶尖的深度研究能力,不再局限于其自有应用,而是作为一项基础设施,开放给全球开发者集成到自己的产品中。
01 深度研究的战略升级
本次发布的核心是全新版Gemini Deep Research Agent。它基于谷歌目前最先进的Gemini 3 Pro模型构建,被官方称为迄今为止“最具事实性”的模型。
该智能体专为长期、复杂的多步骤研究任务设计,通过迭代式的研究规划,能够自主完成信息查询、阅读、分析和报告的闭环流程。
关键在于成本的显著降低。谷歌DeepMind产品经理路卡斯·哈斯在社交平台透露,新版智能体在核心基准测试中表现与GPT-5 Pro相当,但价格仅为后者的十分之一左右。这一价格优势被多家科技媒体反复强调,可能成为吸引开发者的关键因素。
02 智能体的核心革新
与以往只能输出简单答案的模型不同,Deep Research Agent的核心价值在于其模拟人类专家的工作流程。
当用户提出一个宏观问题时,例如“分析2030年量子传感器的商业化路径”,它不会立即搜索,而是先启动规划模块,将问题拆解为技术成熟度、供应链、政策环境等多个子维度的研究路径。
这个研究过程是动态的。如果在初步搜索中发现未预见的新概念,系统会实时修改研究计划,增加新的分支进行深入挖掘。这种能力得益于其在完整Humanity's Last Exam(HLE)测试集中达到46.4%的领先水平。
03 基础设施级API开放
本次升级最具颠覆性的部分是首次向开发者开放API。这通过全新的Interactions API实现,它不仅仅是一个模型接口,更是一个专为智能体应用开发设计的复杂上下文管理系统。
开发者现在可以通过简单的API调用,将谷歌顶尖的研究能力嵌入到自己的ERP、CRM或科研软件中。API支持处理上传的PDF、CSV等文档,并能与公共网络数据整合,生成带有详细引用的结构化报告。
这意味着,任何应用都可以内置一个能够执行数分钟甚至数小时深度研究任务的“AI大脑”。
04 重新定义研究基准
为了科学评估智能体的研究能力,谷歌同步开源了全新的测试基准 DeepSearchQA。该基准包含跨17个领域的900个人工设计的“因果链”任务。
与传统测试不同,DeepSearchQA不满足于单一事实的检索,而是要求智能体生成详尽的答案集,以评估其在复杂、多步骤研究任务中的全面性和精准度。
谷歌内部评估发现,当允许智能体执行更多搜索和推理步骤时,其性能获得显著提升。这证明了在深度研究任务中,给予AI足够“思考时间”的价值。
05 行业应用成为现实
深度研究能力已在多个高精度要求的行业展现出实际价值。在金融服务领域,企业用它自动化完成尽职调查中的早期信息收集,整合市场信号与合规风险。
在生物技术行业,Axiom Bio公司利用该智能体处理药物毒性预测相关的文献分析,获得了更高的研究深度与颗粒度,有效加速了药物开发流程。
谷歌正与英国政府合作,利用这一技术破解城市规划中的“数据孤岛”问题,将复杂历史规划档案的处理时间从平均2小时压缩至40秒到3分钟。
06 开启“研究即服务”时代
有业界评论形象地比喻,谷歌此举等于 “把一个数字版的福尔摩斯交给了开发者” 。现在,开发者只需通过API调用,就能在自己的应用中集成博士级的研究能力。
未来,这项能力将陆续进入谷歌搜索、谷歌财经、Gemini应用以及NotebookLM等核心产品。谷歌计划进一步扩展功能,包括原生生成图表以支持可视化分析报告,并通过模型上下文协议支持更多自定义数据源。
当全球开发者开始将深度研究智能体嵌入到金融分析、医学研究、市场调查等专业工具中,AI正在从回答问题转向解决问题。
谷歌此次深夜亮剑,不仅是对竞争对手的回应,更是将AI研究能力从“产品功能”升级为“开发平台”的关键一步。一场关于谁将成为下一代AI基础设施提供商的竞赛,已经进入全新阶段。