谷歌DeepMind推出的“大脑-身体”双模型系统,让机器人真正学会了三思而后行。
当地时间9月25日,谷歌DeepMind团队宣布推出Gemini Robotics 1.5系列模型,包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款专为物理世界设计的AI模型。这一系统采用创新的“大脑-身体”协作框架,旨在打造能够感知、规划、思考并行动的物理智能体。
其中最引人注目的是Gemini Robotics-ER 1.5作为“高层大脑”,具备业界领先的空间理解能力,可主动搜索信息并制定详细计划。该模型会将自然语言指令传递给担任“身体”角色的Gemini Robotics 1.5模型,由其转化为具体运动指令。
01 双重架构:大脑与身体的精密协作
谷歌此次发布的两个模型各司其职,协同工作。Gemini Robotics-ER 1.5作为“大脑”,负责高阶推理与任务规划。
它是一个视觉语言模型(VLM),能够接受视觉和文本输入,生成完成复杂任务所需的逻辑步骤序列。而Gemini Robotics 1.5则作为“小脑”,专注于将视觉和语言指令转化为具体动作。它是一个视觉-语言-动作模型,处理视觉和文本信息以直接控制机器人的运动。
这种分工架构解决了传统机器人只能执行单一任务的局限性。传统机器人需要大量针对特定任务的训练,而谷歌的新系统通过生成式AI的基础,使机器人能够解释并在完全陌生的环境中操作,无需重新编程。
02 先进功能:从多步规划到跨平台学习
Gemini Robotics-ER 1.5的核心突破在于其“先思考后行动”的能力。当接收到任务指令时,模型能够生成内部推理序列,理解任务语义,再转化为具体行动步骤。
这一功能在官方演示中得到了充分展现。在垃圾排序任务中,机器人不仅能够识别物品,还能在线查找当地的回收指南,根据旧金山的具体规定进行准确分类。
在另一个行李打包演示中,当被要求为伦敦之旅准备行李时,机器人主动检索了伦敦的天气情况,发现未来几天有雨,便贴心地建议携带雨伞。更令人印象深刻的是,新系统展现出卓越的跨机器人形态学习能力。
这意味着在ALOHA 2机器人上学到的技能可以直接迁移到Apollo人形机器人等不同形态的设备上,无需重复训练。
03 技术亮点:空间推理与安全控制
Gemini Robotics-ER 1.5在空间推理方面表现卓越。该模型能够生成语义精准的二维点,基于对物品尺寸、重量和功能的推理,支持“指向任何你能拿起的东西”等命令,实现精准交互。
开发者可以根据需要灵活控制模型的“思考预算”。对于复杂任务(如规划多步骤装配),可以让模型“思考更长时间”;对于反应性任务(如检测或指向物体),则要求快速响应。
在安全性方面,新模型增强了语义安全过滤器,能够识别并拒绝生成违反物理约束的计划,例如尝试提升超出机器人负载能力的物体。谷歌还同步发布了技术报告与安全框架,包括语义安全校验和防碰撞系统,以保障物理场景中的可靠性。
04 开发者应用:即刻可用的机器人智能
对于开发者而言,好消息是Gemini Robotics-ER 1.5已经通过Google AI Studio和Gemini API向开发者开放。这意味着任何开发者都可以开始使用这一推理模型构建应用程序。
社区反应迅速,已经出现了名为“Awesome Gemini Robotics”的资源库,收集了即插即用的提示模板和演示案例。这些资源包括指向未定义/定义物体、边界框和部分定位、轨迹生成等多种用例,为开发者提供了实用起点。
谷歌官方文档则提供了最小化的客户端代码片段,帮助开发者快速集成ER 1.5模型。当前模型名称为 `gemini-robotics-er-1.5-preview`,支持图像提示和结构化输出,便于连接到机器人控制器或VLA系统。
05 行业背景与未来展望
谷歌此次发布正值机器人技术发展的关键时期。美国机器人公司正在推动国家机器人战略,而中国已将AI和智能机器人作为国家优先事项。根据国际机器人联合会的数据,中国已是全球最大的工业机器人市场,2023年约有180万台机器人在工厂和其他工业环境中运行。
在竞争格局中,谷歌采取了与特斯拉、Figure AI和波士顿动力不同的路径。特斯拉专注于为其工厂进行大规模生产,波士顿动力继续推动机器人运动能力的边界,而谷歌则押注于使机器人能够适应任何情况的AI,无需特定编程。
谷歌CEO桑达尔·皮查伊在X平台上指出,新模型将使机器人能够更好地推理、提前规划、使用搜索等数字工具,并将学习从一种类型的机器人转移到另一种。他称之为谷歌“朝着真正有用的通用机器人迈出的下一大步”。
机器人可以根据旧金山当地法规准确分类垃圾,或是通过查询伦敦天气情况为旅行打包行李。这些任务的成功率目前在20%到40%之间,虽然不高,但标志着机器人从单一任务执行者向具备推理能力的通用物理智能体转变的关键突破。
未来,随着更多开发者的参与和技术的不断优化,我们可以期待机器人将在更多复杂环境中担当重任,成为人类真正意义上的智能伙伴。