图像、语言与机器人动作之间的语义鸿沟,被一种名为ViLLA的创新架构打破了。9月23日,智元机器人正式宣布全面开源其GO-1通用具身基座大模型,这标志着全球首个采用Vision-Language-Latent-Action(ViLLA)架构的通用具身智能模型向全球开发者免费开放。该模型此前已在GitHub平台正式开源。此次开源将显著降低具身智能技术的应用门槛,推动行业协同发展。
01 架构创新:ViLLA弥合语义断层
ViLLA架构通过引入隐式动作标记机制,有效解决了图像与文本输入到机器人实际动作输出之间的语义断层问题。与传统VLA架构相比,ViLLA能够更好地利用互联网大规模异构视频数据,增强策略的泛化能力。这一突破性架构通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟。该模型采用多模态理解、隐式规划与动作生成三层次协同架构。它能够融合处理多视角视觉信息、力觉反馈信号以及自然语言指令,实现更精准的任务推理与动作控制。
02 核心能力:小样本泛化与跨平台移植
GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力。其核心能力可归纳为四个方面:
人类视频学习:结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
小样本快速泛化:能够在极少数据甚至零样本下泛化到新场景、新任务,降低后训练成本。
“一脑多形”:能够在不同机器人形态之间迁移,快速适配到不同本体。
持续进化:搭配数据回流系统,可从实际执行遇到的问题中持续学习,越用越聪明。
GO-1设计兼顾灵活性与扩展性,已在多种机器人硬件平台上完成验证,展现出良好的跨平台移植能力与仿真环境下的稳定表现。
03 开发支持:Genie Studio一站式平台
为加速模型的实际应用,智元同步推出Genie Studio一站式开发平台,集成数据采集、模型训练、仿真测试及真机部署等核心环节。这一平台将帮助开发者高效完成从算法研发到实体部署的全流程工作,显著降低具身智能应用开发门槛。智元近期启动了 Genie Trailblazer全球招募计划,面向全球具身智能研究团队,重点围绕通用具身智能模型、具身世界模型构建以及高级遥操作技术三大方向,推动前沿技术探索与生态共建。
04 行业影响:降低门槛推动普及
GO-1大模型的全面开源将推动具身智能从实验室研究向产业化应用加速迈进。它标志着具身智能向通用化、开放化、智能化方向快速迈进:从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。从封闭环境到开放世界:机器人可以适应多变的真实世界环境,而不再局限于实验室。从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。具身智能技术门槛的降低将加速其在商业、工业、家庭等领域的广泛应用。
随着GO-1模型的开源,全球开发者现在可以免费获取这一尖端技术,共同推动具身智能领域向前发展。未来,我们可能会看到更多机器人能够理解“挂衣服”等复杂指令,并分解为一系列动作步骤精准执行。从单一任务到多种任务,从封闭环境到开放世界,具身智能正一步步走向通用化、开放化、智能化的未来。