一段指令、一张图片,甚至一个想法,如今都能在几秒内转化为一段角色稳定、镜头连贯的短视频。这一切无需复杂剪辑软件,只需对AI模型“说”出你的需求。
2025年12月1日,快手旗下可灵AI正式发布并全量上线了其“可灵O1”模型。
该模型被定位为 全球首个大一统的多模态视频创作工具。它致力于将视频的生成、编辑、理解等所有任务整合进一个“全能引擎”,用户不再需要在不同工具间切换,即可实现从灵感到成品的闭环。
01 技术突破
可灵O1最核心的技术创新,在于其提出的 “大一统多模态”架构。
传统AI视频工具通常将文生视频、图生视频、视频编辑等功能分割成独立模块,导致工作流断裂、操作繁琐。
可灵O1基于全新的MVL(多模态视觉语言)理念,构建了一个全新的生成式底座。它将多种任务——包括文生视频、图生视频、视频内容增删、风格重绘、镜头延展等——深度融合于同一个模型之中。
这一架构结合了Chain-of-thought(思维链)技术,使模型不仅理解表面指令,更能进行常识推理和事件逻辑推演,从而生成更符合现实逻辑的视频内容。
02 解决核心痛点
AI视频生成长期面临一个顽固的“痛点”:角色与场景在多镜头、多片段中难以保持一致。
可灵O1通过底层技术的强化,宣称已有效解决了这一难题。它能像人类导演一样,“记住”主角、道具和场景的特征。无论镜头如何流转切换,主体特征都能保持稳定如一。
模型还具备强大的多主体融合能力。用户可以自由组合多个不同的人物或物体,甚至在复杂的群像场景中,模型也能独立锁定并保持每一位“演员”的独特特征。
03 交互革命:从“剪辑”到“对话”
可灵O1彻底改变了视频创作的交互方式,将繁琐的后期剪辑变成了简单的对话。
用户无需手动进行遮罩、关键帧等专业操作,只需通过自然语言下达指令。
| 典型用户指令 | 对应解决的创作痛点 |
| “移除视频背景中的路人” | 繁琐的背景清理与修补 |
| “将白天场景改为黄昏” | 快速切换时间氛围,无需重拍或复杂调色 |
| “替换主角的服装” | 实现服装道具的数字化替换,节约实拍成本 |
| “在增加主角的同时修改背景” | 一次性完成复合型创意修改,提升效率 |
04 应用场景与行业影响
这一工具的推出,旨在覆盖从专业影视到普通大众的广泛创作需求。
在影视创作与自媒体领域,创作者可以借助其强大的角色一致性功能,快速生成多个连贯的分镜镜头,极大缩短前期视觉预演(Previs)的周期。
对于广告与电商行业,可灵O1的价值更为直接。传统广告实拍成本高昂、制作周期长。现在,商家只需上传商品图、模特图和场景图,配合简单指令,即可快速生成多种风格的商品展示视频。它还能搭建“虚拟T台”,通过上传服装实拍图,批量生成高质量的服装展示视频,解决模特约拍、换装重拍的麻烦。
05 行业竞赛新焦点
可灵O1的全量上线,标志着全球AI视频生成竞赛进入了一个新阶段。
竞争焦点正从单一的“文本生视频”效果比拼,转向更复杂、更一体化、更懂创作逻辑的“全流程创作平台”。统一的模型架构意味着更高的生成效率、更低的试错成本和更强的创意可控性。
点击可灵App或访问其官网,用户现已可使用视频O1模型。一同上线的还有可灵图像O1模型,它同样实现了从生成到编辑的全链路覆盖。
视频创作的工具属性正在被重新定义。当专业剪辑的门槛被一句简单的对话指令抹平,每个人表达创意的边界也随之拓展。可灵O1展示的不仅是一个新技术模型,更是未来内容生产的一种可能性。
这场由“大一统”架构掀起的浪潮,或许才刚刚开始。