8月14日智元机器人正式发布Genie Envisioner(GE),这是业内首个面向真实世界机器人操控的统一世界模型开源平台,标志着机器人学习技术迈入全新阶段。
GE平台颠覆了传统“数据-训练-评估”割裂的流水线模式,首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,使机器人能在单一模型中完成从“感知→决策→执行”的端到端推理。
智元机器人最新推出的Genie Envisioner(GE)平台在机器人世界建模领域实现了重大突破。该平台创新性地采用了视觉中心的世界建模方法,彻底改变了传统机器人控制依赖视觉-语言-动作(VLA)间接映射的模式。通过直接在视觉空间建立机器人与环境的交互动态模型,GE平台完整保留了操控过程中的空间结构和时序演化信息,这一技术路线带来了显著的性能提升。
在跨平台泛化能力方面,GE平台展现出惊人的效率。仅需1小时的遥操作数据(约250次演示),就能在新机器人平台上实现高质量任务执行,这一表现远超当前最先进的模型46%。对于需要多步骤协同的复杂任务,GE平台同样表现优异。以折叠纸盒这一超过10个步骤的任务为例,GE-Act模块的成功率达到了76%,相比同类模型π0的48%和UniVLA/GR00T的0%成功率,优势十分明显。
GE平台的核心架构由三大组件协同构成。首先是GE-Base基础模型,该模型基于3000小时真实机器人视频数据训练而成,具备多视角生成能力和稀疏记忆机制,特别擅长处理长时序推理任务。其次是GE-Act动作解码器,这个轻量级架构仅有160M参数,却能在RTX 4090 GPU上实现200ms内完成54步实时动作推理的出色性能。最后是GE-Sim神经仿真器,它通过层次化动作条件来预测未来视觉状态,为闭环策略评估和数据生成提供了强大支持。
在实际应用方面,GE平台已经成功完成了包括制作三明治、倒茶、擦拭桌面等多种日常任务。为了推动行业技术进步,智元机器人已将全部代码、预训练模型及评测工具开源,这一举措将有效促进机器人技术从"被动执行"向"想象-验证-行动"的主动智能模式转变。开源项目已在GitHub平台发布,为全球研究者和开发者提供了宝贵的研发资源。