一张照片、一段音频,就能生成一个不仅会动会说话,还能思考、有情感反应的数字人。字节跳动的新模型让虚拟数字人从此告别“眼神空洞”和“机械动作”。数字人技术正从“形似”走向“神似”。字节跳动智能创作实验室推出的OmniHuman-1.5框架,通过模拟人类“双系统”认知过程,为数字人装上了“大脑”。这个模型能够分析音频的语义和情感,生成不仅口型准确、更与内容逻辑一致的表情和手势。它甚至能处理多人互动场景,让每个角色根据对话内容做出自然反应。
01 双系统架构:从反应式到思考式的跨越
OmniHuman-1.5的核心创新是借鉴了诺贝尔奖得主丹尼尔·卡尼曼提出的“思考,快与慢”双系统理论。系统2作为“思考大脑”,由多模态大语言模型(MLLM)充当分析器和规划器。它先分析输入的角色参考图、音频和可选文本提示,解读角色性格、情绪和意图,然后制定详细的“动作剧本”,规划视频每个时间段的角色表情和动作。系统1扮演“执行身体”,通过专门的多模态扩散Transformer(MMDiT)架构负责渲染执行。它将系统2的高层文本规划与底层音频信号融合,生成最终视频,确保口型同步和动作自然。
02 技术创新:破解数字人生成两大难题
OmniHuman-1.5通过两项关键技术解决了数字人生成中的固有难题。一是“伪最后帧”(Pseudo Last Frame)设计。传统方法中,模型需时刻“回顾”静态参考图以保持人物一致性,这限制了动作多样性。新方法在训练时抛弃参考图,只学习根据视频的“第一帧”和“最后一帧”预测中间帧。在实际应用时,用户提供的参考图被巧妙置于“最后一帧”位置。这既保持了人物身份特征,又释放了动作自由度。二是“对称融合”与“两阶段预热”策略。OmniHuman-1.5为音频信号设计了独立分支,与视频和文本分支对称。三大分支在每一层都通过共享自注意力机制深度融合,确保信息对齐。为解决音频信号过于密集导致的“模态冲突”问题,团队采用两阶段预热训练策略。
03 效果卓越:主观客观评估双双领先
根据官方论文和评测,OmniHuman-1.5在多项指标上显著领先。客观数据显示,无论是在衡量视频整体质量的FID、FVD,还是唇音同步的Sync-C,甚至是测量手部动作自然度和丰富度的HKC和HKV指标上,OmniHuman-1.5都明显领先。它在需要全身大动作的复杂场景中表现特别出色。主观评测方面,在用户偏好度调查中,OmniHuman-1.5以33%的“最佳选择率”遥遥领先。用户普遍认为其生成的视频在“动作自然度”和“语义一致性”上有“肉眼可见的优势”。模型能理解并执行复杂指令。例如,当说“看这个发光的水晶球”时,数字人会自然地指向水晶球;在多人对话中,没说话的角色也会自然“待机”,而不是僵立不动。
04 应用前景:多领域变革在即
OmniHuman-1.5的技术进步为多个行业开启了新的可能性。内容创作领域:该模型能生成长达一分钟以上的视频,并通过自回归方式无缝衔接,非常适合制作演讲、MV等长视频内容。影视制作行业:导演在前期构思和分镜设计阶段,可用它快速生成角色动作小样,大幅缩短创作周期,节省人力成本。在需要大量群演的宏大场景中,使用虚拟群演能降低拍摄成本并实现现实难以达成的画面。虚拟互动场景:OmniHuman-1.5可处理复杂的多人互动场景,为每个角色分配不同“戏份”,生成协调一致的群体表演。它甚至能驾驭非人类角色(如动物、动漫人物),使其表演符合“人设”。据浙商证券报告,AI数字人有望成为大模型商业化变现的有效路径。IDC预测,到2026年,中国AI数字人市场规模将达102.4亿元。
OmniHuman-1.5即将上线字节跳动旗下的即梦AI应用,未来用户只需一张照片和一段音频,就能创建具有逻辑思维和情感表现力的虚拟角色。数字人不再是机械重复动作的“提线木偶”,而成为能理解语境、规划行为的表现者。这背后是认知科学与人工智能的深度融合。从影视制作到虚拟社交,从教育到广告营销,具备“思考能力”的数字人将重新定义多个行业的人机交互体验。