一张人物照片输入AI模型,生成的视频里主角却在中途“变脸”,这一困扰行业的顽疾如今迎来了技术突破。字节跳动与南洋理工大学联合开发的StoryMem系统,正试图给AI视频生成装上“长期记忆”。
咖啡馆里,主角正在品尝咖啡;镜头一转,同一主角出现在办公室——但在多数AI生成的视频中,这两个场景里的“同一个人”往往长相不同、衣着突变。
这是当前AI视频生成领域的普遍痛点:Sora、Kling、Veo等主流模型在短片段生成中表现出色,却难以在多场景故事中保持角色与环境的稳定与连贯。
01 技术困局
当前AI视频生成技术面临的最大挑战之一是“角色走样”问题。当需要将多个场景拼接成连贯叙事时,AI模型往往无法保持角色外观和环境的一致性。
传统视频生成模型就像患有健忘症的画家,每画一幅画都把前作忘得干干净净。
此前业界已有一些尝试解决这一问题的方案,但大多需要大量计算资源,或者在保持一致性的同时牺牲了生成效率。
字节跳动智能创作团队早在2025年就推出了主体一致性视频生成模型Phantom,能够基于参考图像保持主体的完整性。2025年6月,该团队又发布了包含100万个跨场景身份一致配对的Phantom-Data数据集。
这些技术积累为StoryMem系统的诞生奠定了坚实基础。
02 记忆机制
StoryMem系统的核心创新在于其“记忆到视频”的设计理念。系统创建了一个动态记忆库,能够存储先前场景的关键帧信息。
当第一个镜头生成后,系统会提取关键帧并存入记忆库。随后每个新镜头的生成请求都会触发M2V LoRA模块,将记忆库中的视觉特征强制注入到当前扩散模型中。
这一机制使新生成的画面与前作保持逻辑上的强关联。
该系统的算法采用双重过滤机制:首先通过语义分析挑选视觉核心帧,再通过质量检测剔除模糊图像。生成新场景时,这些关键帧配合RoPE技术输入模型,通过赋予记忆帧“负时间索引”,引导AI将其识别为“过去的事件”。
StoryMem的实现方式非常高效。它基于阿里巴巴开源模型Wan2.2-I2V的LoRA版本运行,在拥有140亿参数的基础模型上仅增加了约7亿参数,显著降低了训练门槛。
03 实际表现
根据官方测试数据,StoryMem系统在跨场景一致性方面较未修改的基础模型提升了28.7%到29%。
这意味着生成的视频不再是碎片的堆砌,而是真正具备了连贯质感。
为了系统评估其能力,研究团队专门推出了包含300个复杂场景的ST-Bench基准测试集,为行业建立了新的评估标准。
用户调研也证实了系统的优势。参与者普遍更青睐StoryMem的生成结果,认为其在视觉美观度与内容一致性上表现更优。
在实际应用中,系统支持用户上传自定义照片作为“记忆起点”来生成连贯故事,并能实现更平滑的场景过渡。
04 行业影响
StoryMem系统的出现正在引发AI视频创作领域的生产力变革。在广告与营销领域,创意人员可以迅速将抽象脚本转化为动态分镜,低成本进行多版本A/B测试。
影视制作团队能利用该系统快速把控故事板的视觉效果,大幅压缩前期沟通成本。对于广大独立创作者和短视频博主,这更是打破技术壁垒的利器。
项目上线仅数日,开源社区就展现出惊人反应速度。技术开发者们已经在探索本地化部署路径,部分甚至在ComfyUI中搭建出了初步工作流。
这意味着这项前沿技术正在快速走向普及,成为更多创作者触手可及的工具。
目前,字节跳动已在Hugging Face平台开放了StoryMem的权重数据,并上线了项目页面供开发者探索。这种开源策略有望加速技术生态的形成和应用创新。
05 局限与展望
研究团队也坦诚指出了StoryMem系统目前存在的局限性。在包含多个角色的复杂场景中,系统可能出现角色视觉特征应用不当的情况。
为此,团队建议在每个提示中明确描述角色,以提高生成效果。此外,当人物动作幅度较大或需要进行复杂互动时,系统的表现也有待提升。
字节跳动在AI视频领域的布局不止于此。除了StoryMem系统,该公司还在2025年8月推出了OmniHuman-1.5数字人方案,能够基于单张图像和音频生成多模态数字人视频。
这些技术共同构成了字节跳动在AI视频生成领域的完整技术矩阵。
随着技术的不断成熟,高质量的AI生成长视频正从概念走向现实。StoryMem系统通过解决角色一致性问题,为这一进程扫除了一大障碍。
当技术极客们已在ComfyUI中搭建出StoryMem的工作流时,普通用户距离用AI生成自己的第一部“微电影”已不再遥远。
未来,广告公司可能不再需要昂贵的实拍就能测试多个创意版本;独立电影人可以用更低的成本实现复杂的镜头构想;短视频博主能够轻松制作出角色连贯的系列故事。
随着StoryMem这类技术的持续进化,AI视频创作正从生成“片段”走向创造“故事”,其影响将远超技术圈层,重塑整个内容产业的创作与生产模式。