谷歌用新模型重新定义了AI从“回答问题”到“完成工作”的界限。
当地时间11月18日,谷歌正式推出了新一代人工智能模型Gemini 3,并同步上线了Gemini 3 Pro预览版。
谷歌CEO桑达尔·皮查伊在公司官方博客中将其描述为“我们最智能的模型”,能够“将任何想法变为现实”。此次发布被视为谷歌在AI领域的重要反击,旨在重新夺取技术领先地位。
01 三大突破:推理、多模态与智能体
Gemini 3的发布标志着谷歌AI技术的一次质的飞跃。该模型在三个关键维度上实现了显著突破:任务执行能力、分发效率和生态整合。
谷歌官方将Gemini 3定义为“通往AGI(通用人工智能)的重要一步”,并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。
在推理能力方面,Gemini 3表现卓越。在衡量通用推理能力和专业知识的“人类终极考试”中,该模型以37.4分的成绩创下有史以来最高分,此前的最高分由GPT-5 Pro保持,为31.64分。
这一进步意味着Gemini 3能够更精准地把握用户请求背后的语境与意图,减少对大量提示词的依赖。
多模态理解是Gemini 3的另一核心优势。作为“世界上最好的多模态理解模型”,它能够无缝整合文本、图像、视频、音频和代码等多种模态信息。
例如,Gemini 3可以破译并翻译不同语言的手写食谱,制作成可分享的家庭食谱书。
在智能体能力方面,Gemini 3展现了惊人的任务执行能力。它能够在整整一年的模拟运营中保持一致的工具使用和决策能力,在不偏离任务的情况下实现更高回报。
这意味着Gemini 3能够代表用户导航更复杂的多步骤工作流程,例如自动整理收件箱或规划完整旅行行程。
02 基准测试:全面领先的技术实力
谷歌Gemini 3在多项权威基准测试中展现了领先业界的实力。根据发布的数据,Gemini 3在热门AI基准测试平台LMArena排行榜上以1501分位居首位。
这一成绩充分证明了其卓越的综合能力。
在专业领域测试中,Gemini 3同样表现抢眼。它在GPQA Diamond(衡量博士级推理能力)上达到91.9%,在数学推理的MathArena Apex上取得23.4%的最新最高分。
在事实准确性方面,该模型于SimpleQA Verified测试中达到72.1%的得分。
多模态推理方面,Gemini 3在MMMU-Pro测试中获得81%的分数,在Video-MMMU测试中达到87.6%。
这些数据表明该模型能够高度可靠地处理科学和数学等广泛领域的复杂问题。
除了标准版本,谷歌还推出了Gemini 3 Deep Think增强推理模式,该模式在Humanity‘s Last Exam测试中达到41.0%的成绩。
在ARC-AGI-2测试中,Deep Think模式更是创下了45.1%的前所未有成绩,展示了其解决新颖挑战的能力。
03 产品集成:发布即上线的商业策略
谷歌此次采取了积极的产品策略,在Gemini 3发布首日就将其整合到多个核心产品中。这是谷歌首次在新模型发布当天就将其应用于搜索产品,标志着公司AI商业化战略的重要转变。
在搜索方面,AI Mode现在使用Gemini 3来实现新的生成式用户界面体验,包括沉浸式视觉布局、交互式工具和模拟,所有这些都根据用户查询实时生成。
在Gemini App中,所有用户都可以使用Gemini 3,Google AI Pro和Ultra订阅用户还可以在AI Mode搜索中使用该模型。
谷歌同时宣布,自11月18日起,所有用户均可通过Gemini应用程序使用旗舰模型Gemini 3 Pro,该模型也将同步整合至谷歌的搜索订阅服务中。
这一集成策略的优势在于其无可比拟的分发效率。搜索的AI Overviews已经覆盖20亿月活用户,Gemini App月活超过6.5亿。
发布当天,Gemini 3就开始服务这个规模的用户群,这是其他AI公司难以企及的覆盖能力。
04 开发者工具:AI辅助的革命性升级
面向开发群体,谷歌推出了全面升级的工具支持。开发者可以通过Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains等第三方平台访问Gemini 3。
在代码生成领域,Gemini 3被谷歌称为“迄今构建的最佳vibe coding和智能体编码模型”。
该模型在WebDev Arena排行榜上以1487分的高分登顶,在评估代码智能体的SWE-bench Verified基准测试中达到76.2%,远超Gemini 2.5 Pro的表现。
谷歌还推出了以智能体为先的全新开发平台Google Antigravity,该平台利用Gemini 3的高级推理、工具使用和智能体编码能力。
DeepMind首席技术官Koray Kavukcuoglu表示:“智能体可以在你的编辑器、终端和浏览器之间工作,以最佳方式帮助你构建应用程序。”
在API定价方面,Gemini 3.0 Pro引入了基于上下文长度的分级定价机制。
200k tokens以下的任务,输入/输出价格为每百万token 2.00美元/12.00美元;超过200k tokens则分别为4.00美元和18.00美元。
05 生态护城河:谷歌的全栈式优势
Gemini 3的发布彰显了谷歌在AI领域的生态护城河。从芯片到数据中心,从模型到产品,从用户到开发者,谷歌控制了整条链路。
这种全栈控制带来的优势体现在三个层面:
第一层是算力自主。谷歌自研TPU,成本和性能自己掌控,这直接决定了能否在发布当天服务数十亿用户。
第二层是数据闭环。搜索每天数十亿次查询,Gmail数百亿封邮件,这些数据既是训练素材,也是持续优化的反馈。
第三层是产品矩阵。Gemini 3可以在搜索中测试理解能力,在Gmail中测试生成能力,在Android中测试智能体能力,每个产品都是真实的能力验证场。
Alphabet首席执行官桑达尔·皮查伊将这种优势称为“差异化的全栈式方法”。当AI成为所有数字服务的新界面层,谷歌不是在做一个更好的AI工具,而是在重构计算的底层逻辑[citation:2。
谷歌似乎不再满足于在技术跑分上超越对手,更试图重新定义AI与人的协作方式。当其他公司还在优化对话体验时,谷歌已悄然将AI从“回答问题”的助手升级为“完成工作”的智能体。
从独立应用到嵌入式能力,AI竞争的规则正在改变。随着Gemini 3融入数十亿用户的生活,这场AI竞赛正在从技术参数的较量,升级为整个生态系统的对抗。