深度整合2D/3D空间细节,通用人形机器人从“看得懂”走向“干得成”。
“UnifoLM-VLA-0 模型在‘no thinking’模式下,其能力可以比肩业界顶尖的 Gemini-Robotics-ER 1.5。” 宇树科技在其官方技术介绍中如此写道。
1月29日,宇树科技宣布正式开源面向通用人形机器人的视觉-语言-动作大模型 UnifoLM-VLA-0。
这一模型旨在突破传统视觉语言模型在物理世界交互中的局限,通过约340小时高质量真机数据的针对性训练,使通用大模型从“图文理解”进化为具备深度物理交互常识的“具身大脑”。
01 模型革新
传统视觉语言模型擅长处理图文信息,但在涉及物理交互和空间操作的机器人领域常显得“力不从心”。
宇树此次开源的 UnifoLM-VLA-0 正是针对这一痛点。模型基于开源的 Qwen2.5-VL-7B 模型构建,通过覆盖机器人场景的多任务数据集进行持续预训练。
其核心是深度融合文本指令与2D/3D空间细节,并构建全链路动力学预测数据,实现了从“通用图文理解”向“具身物理交互”的根本转变。
02 训练突破
在机器人领域,高质量真机数据的获取成本极高,往往成为技术落地的瓶颈。UnifoLM-VLA-0 的一个显著突破是极高的训练效率。
宇树对开源数据集进行了系统化清洗,最终仅使用约340小时的真机数据,就完成了离散动作的预测训练。
通过动作分块预测技术,结合前向与逆向动力学约束,模型实现了对复杂动作序列的统一建模,让机器人能够理解自身与物体的物理交互规律,支持长时间序列的动作规划。
03 性能验证
在宇树G1人形机器人平台的测试中,UnifoLM-VLA-0展示了令人印象深刻的多任务处理能力。
测试涵盖开闭抽屉、插拔插头、抓取放置等12类复杂的操作任务。该模型仅需单一策略网络即可高质量完成所有任务。
即使在有外部干扰的条件下,机器人仍能保持良好的执行鲁棒性与抗干扰能力,这证明了模型对物理交互规律的深度理解。
04 行业对标
宇树在多个空间理解基准上对模型进行了评估。结果显示,该模型的空间感知与理解能力较基础模型 Qwen2.5-VL-7B 有显著提升。
在“no thinking”(无思考)模式下,UnifoLM-VLA-0 的表现可比肩谷歌的 Gemini-Robotics-ER 1.5 模型。同时,在LIBERO仿真基准测试中,宇树的多任务模型也取得了接近最优的性能。
05 开源生态
此次开源是宇树构建具身智能生态的重要一步。目前,该模型的项目主页与开源代码已在GitHub平台公布,供全球开发者与研究机构获取。
开源不仅降低了人形机器人智能化的门槛,也为整个具身智能领域提供了高质量的基础模型和训练框架。
宇树的这一动作标志着具身智能正从实验室快速走向实用化。此前,人形机器人的智能化需要针对特定任务进行大量定制化训练,而UnifoLM-VLA-0展示了单一模型处理多类复杂操作任务的可能性。
随着代码和模型的开源,物理世界中的机器人交互将不再是少数机构的专有技术。
未来,当更多开发者基于这一“通用大脑”进行创新时,人形机器人在家庭、工业和服务场景的普及将大大加速。一个真正能够理解物理世界、执行复杂任务的机器人时代或许已经近在眼前。