2025年8月12日,昆仑万维在其SkyWork AI技术发布周上重磅推出Matrix-Game 2.0。这是全球首个开源的通用场景实时长序列交互式世界模型,能以25帧/秒(FPS)的速度稳定生成分钟级连续视频,并支持用户通过键盘、鼠标等简单指令实时操控虚拟环境。
该技术的突破将大幅提升游戏开发、虚拟现实(VR)、影视制作等领域的生产力,为内容创作者提供更高效的解决方案。
Matrix-Game 2.0采用视觉驱动交互世界建模方案,摒弃传统依赖语言提示的生成模式,转而基于3D因果变分自编码器(3D Causal VAE)和多模态扩散Transformer(DiT)架构。
这一架构实现了高效时空压缩与物理合理的动态视觉序列生成,使模型能够更流畅地处理复杂场景。在核心技术上,Matrix-Game 2.0具备三大亮点:首先是实时自回归扩散生成,通过KV缓存机制(KV-Cache)和分布匹配蒸馏(DMD),减少误差累积,使得单GPU即可实现25FPS的流畅生成;其次是跨场景泛化能力,支持城市、野外等多种环境,以及写实、油画等不同视觉风格,可适配《GTA5》《Minecraft》等游戏场景;最后是物理一致性增强,角色在复杂地形(如台阶、障碍物)中的运动符合物理规律,极大提升了沉浸感。
Matrix-Game 2.0的落地将大幅降低内容创作门槛,并在多个领域发挥重要作用。
在游戏开发方面,可以自动生成可交互场景,减少人工建模成本,加速游戏制作流程;在虚拟现实领域,能够实时渲染动态环境,提升用户体验,使VR内容更加丰富和自然;
在影视制作上,可以快速生成高质量特效与动画,缩短制作周期,降低后期制作成本;同时还能为具身智能训练提供虚拟训练环境,加速机器人及自动驾驶算法的开发。
值得关注的是,此前DeepMind发布的Genie 3虽然实现了类似功能,但并未开源。昆仑万维此次全面开放Matrix-Game 2.0的代码、模型权重及技术报告,推动全球交互式世界模型的研究与发展。
这一开源举措不仅展示了中国在AI领域的创新能力,也为全球开发者提供了强大的工具,有望加速元宇宙、具身智能等前沿技术的进步。