
10万亿Token训练、790年视频时长、34B参数,开源模型性能超越谷歌Gemini-2.5-Flash-Image。
北京智源人工智能研究院(BAAI)于10月30日发布了新一代多模态世界大模型——悟界·Emu3.5。
作为全球首个开源的原生多模态世界模型基座,Emu3.5在多项权威基准测试中表现优异,在文本渲染和多模态交错生成任务上甚至超越了谷歌的Gemini-2.5-Flash-Image(Nano Banana)。
该模型的核心突破在于其原生多模态架构与世界建模能力,能够理解和预测物理世界的变化规律,实现从简单的文图生成到复杂的跨场景具身操作等一系列任务。
01 世界模型:从“像不像”到“懂不懂”的跨越
在当前文生视频赛道竞争激烈的背景下,AI生成内容的重心正从单纯的逼真性转向对物理世界的深度理解。
智源研究院院长王仲远曾在此前指出,人工智能正在加速从数字世界走向物理世界,而AI跨向物理世界的关键在于对空间和时间的感知。
Emu3.5正是基于这一理念构建的“世界模型基座”。
它不仅能生成逼真的内容,更能理解现实世界的动态规律,比如知道“桌子上的苹果被拿走后,那里应该变空”,明白“转身之后背后的场景依然存在”。
这种对物理规律的内在理解能力,使Emu3.5在AI视频生成领域迈出了从“高级GIF”到智能模拟的关键一步。
02 技术架构:统一框架下的多模态融合
Emu3.5采用34B参数的Decoder-only Transformer框架,将所有任务统一为“下一状态预测”(Next-State Prediction)。
与传统的“多模块”模型不同,Emu3.5的原生多模态架构将文本、图像、视频等多种模态数据在同一框架下处理。
这种极简架构实现了多模态数据的大一统。
该模型在超过10万亿Token的多模态数据上进行训练,其中主力是来自互联网视频的连续帧和转录文本。
训练数据总时长约790年,相比前代Emu3的15年实现了数量级提升。
03 核心能力:视觉叙事与世界探索
Emu3.5展现出多项突破性能力:
在视觉叙事方面,Emu3.5能够生成图文并茂的连贯故事,从牛顿与索尼克在森林相遇,到最终在月光下共同仰望星空,整个叙事逻辑连贯,画面风格统一。
在视觉指导领域,模型可以生成分步教程,例如展示从轮廓到最终完成猫图片的全过程,每一步都配有清晰的示意图。
在世界探索能力上,Emu3.5允许用户以第一人称视角进入虚拟世界,动态构建移动和转身后的场景,全程保持空间一致性。
无论是参观阳光下的客厅,还是在火星上开卡丁车,体验都极为丝滑。
04 具身操作:跨场景的智能体交互
Emu3.5在具身操作方面实现了突破,能够像智能体一样理解长时序、空间一致的序列。
例如,在“整理桌面”任务中,Emu3.5能通过一系列指令完成复杂操作:先把桌上所有东西清空,把所有线缆解开并分类,用扎带捆好线缆,用理线槽把线缆隐藏在桌下,最后把桌面物品摆放整齐。
这种能力源于模型对动态世界演变规律的理解。
当给定一张狐狸草图并指令“把它变成3D模型、3D打印出来、再上色”时,Emu3.5能够一步步生成从草图到最终手办形态的完整视觉流程,并保持狐狸核心特征和神态的完美一致。
05 创新技术:训练流程与推理加速
Emu3.5的训练流程分为四个核心阶段:
- 大规模预训练:在10万亿Token数据上进行基础学习,然后在3万亿更高质量数据上增强能力
- 监督微调:在1500亿样本的高质量数据集上微调,建立统一多模态交互接口
- 大规模多模态强化学习:构建复杂多维度奖励系统,评估美学质量、图文对齐度、叙事连贯性等多指标
- 推理加速:提出离散扩散自适应技术(DiDA),将每张图像的推理速度提升近20倍
DiDA技术成功解决了自回归模型生成图像慢的痛点,使Emu3.5成为首个在推理速度和生成质量上都能与顶级闭源扩散模型相媲美的自回归模型。
06 应用前景:从创意生成到产业赋能
Emu3.5的发布为多领域应用开启了新的可能。
在创意生成领域,它能够协助专业设计师进行高精度、可控的图像编辑,生成图文并茂的视觉故事。
在教育指导方面,它可以生成分步教学指南,手把手教导用户做菜、画画、种菜等技能。
在具身智能领域,Emu3.5可作为无限数据生成器,为机器人训练提供丰富多样的虚拟环境和任务规划数据,解决该领域高质量数据缺乏的痛点。
最为关键的是,智源选择了开源这一强大模型,全球开发者无需从零开始,就能直接上手一个懂物理、有逻辑的世界模型。
Emu3.5的突破不止于生成质量,更在于其对世界动态的内在理解。这一跨越使得Emu3.5不再是简单的生成工具,而是迈向通用人工智能的重要一步。
正如智源所强调的,人工智能正从数字世界加速迈入物理世界,而Emu3.5正是这一趋势的集中体现。