一张简单的角色图片上传后,能在不同风格、光影和场景的视频中保持96%以上的形象一致性。快手旗下的可灵AI,正尝试为AI视频生成行业制定一项新标准。
“人物脸部特征难以保持,是视频生成大模型领域的一个关键难题。” 导演贾樟柯在参与“可灵AI导演共创计划”时曾如此感慨。当时,他和团队为了完成一部以仿生机器人为主角的短片,不得不在技术层面做出妥协。
如今,这个行业痛点似乎迎来了解决的新契机。
近日,快手旗下可灵AI正式发布了“主体库”功能,为O1多模态视频模型赋予了“长期记忆”能力。
01 功能发布:从“单次生成”到“记忆调取”
12月5日至8日期间,快手可灵AI陆续发布了“可灵O1主体库”和“对比模板”两项新功能。
这标志着其AI创作工具从“单次生成”向具备“记忆与复用”能力的系统升级。
“主体库”被定义为一个“随需调用的素材库”,允许用户上传角色、道具或场景的参考图,并将其存入一个可供随时调用的库中。
当用户需要时,只需在创作提示词中输入“@角色名”,即可在全新的镜头、光照或艺术风格下,稳定复现该主体的核心特征。
02 核心突破:三步流程实现“角色永生”
“主体库”的核心价值在于解决了AIGC内容中角色形象漂移、不一致的顽疾。官方宣称其“主体一致性>96%”,并承诺“彻底告别AI变脸”。
该功能围绕一套简洁的三步操作流程构建:
上传环节:系统支持JPG、PNG、RAW等多种图片格式。上传后,AI会自动完成抠图、对齐和色彩归一化处理,为后续工作做好准备。
智能补全:即使只提供一张正面照,AI也能自动生成该角色的侧脸、背面及局部细节视图,并提供最多3组方案供用户选择,有效构建角色的三维“记忆”。
跨场景调用:用户在任何视频或图像创作中,通过简单的“@角色名”指令即可调用该角色。无论是更换背景、改变时间(如从白天到夜晚),还是转换为卡通或赛博朋克风格,角色的面部特征和标志性服饰细节都能保持高度稳定。
03 技术协同:与O1模型深度集成,降低创作门槛
主体库并非孤立功能,而是与可灵O1模型的“文本生视频”、“图像生视频”等核心功能共用底层的隐空间(latent space),实现了多模态创作的无缝衔接。
这种深度集成带来了两个关键效果:一是同一角色能在多段视频中连续出现,且身份特征漂移被控制在极低的水平(ID漂移<0.03);二是支持生成长达5分钟、48fps帧率的1080p高清视频。
同时,为了进一步降低创作门槛,系统新增了 “AI智能描述” 功能。它能自动分析上传的角色图片,提取其发色、服饰、风格等关键特征,并生成一段60字以内的描述性关键词。
实验数据显示,使用智能描述后,复杂场景下视频“一次生成成功率”提升了27%,平均为创作者节省了12分钟的手动调试时间。
04 应用场景:从影视预览到虚拟偶像
主体库的推出,预计将对多个依赖角色一致性的行业产生直接影响。
影音预览与故事板制作
制片方可以利用该功能提前锁定主角造型,快速生成动态故事板,从而大幅降低因角色造型不匹配而导致的外景复拍成本。
跨境电商与商品展示
商家一次性上传模特图片后,即可高效、批量地生成多语言、多场景的服装试穿视频。据官方分析,此类视频的制作成本有望降至传统方式的十分之一。
虚拟偶像与粉丝共创
虚拟偶像IP方可以将官方角色形象存入主体库。粉丝在进行二次创作时,只需通过“@角色名”调用,即可生成高质量的同人视频,无需担心角色“走样”或侵权问题[citation-4]。
05 商业模式:分层定价与未来规划
可灵为主体库功能设计了分层级的商业模式,以覆盖从个人爱好者到企业客户的不同需求。
此外,可灵AI已透露了下一步的研发方向:计划在2025年第一季度上线 “多人主体库” 与 “实时风格化” 功能。
前者允许在同一画面中稳定调用多达3个不同角色,为更复杂的剧情创作铺路;后者则能让用户在卡通、复古、赛博朋克等多种全局艺术风格间实时切换。
可灵AI自2024年上线以来,已迭代超过30次,累计生成视频数量达2亿条。
此次推出主体库,标志着行业竞争焦点正从比拼“单条视频的清晰度和长度”,转向构建 “跨视频、跨场景的角色一致性能力”。
当AI不仅会创作,更能“记住”并“复现”创作中的角色时,短视频乃至长视频的工业化生产流程,或许真的要被改写了。