
一支以外卖闻名的团队,悄然在AI视频生成赛道投下了一颗“重磅炸弹”。
10月27日,美团LongCat团队正式发布并开源了LongCat-Video视频生成模型。该模型基于Diffusion Transformer(DiT)架构,原生支持文本生成视频、图像生成视频及视频续写三大任务。
最令人瞩目的是,LongCat-Video可稳定生成5分钟级别的高清长视频,生成内容达到720p/30fps的高清标准。
这意味着AI视频生成从短暂的几秒、几十秒片段,正式迈入了“长视频”时代。
01 三项核心能力
LongCat-Video采用以“条件帧数量”区分任务的方式,无需额外模型改造即可覆盖三类核心任务。
文本生成视频任务不输入条件帧,模型能够生成720p、30fps的高清视频,并对文本指令进行精准解析与视觉呈现。
图像生成视频功能则输入1帧参考图,严格保留原图像特征的同时确保动态过程符合物理规律。
视频续写功能依托多帧前序内容,使模型能够像“故事接龙大师”般延续视频叙事,为长视频生成提供关键技术支撑。
02 技术突破
面对长视频生成的计算瓶颈,LongCat-Video通过“二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏”三重优化策略。
这一组合拳将视频推理速度提升至基线的10.1倍。
模型在处理93帧及以上序列时,结合块稀疏注意力与条件token缓存机制,有效降低了长序列推理冗余。
团队在预训练阶段就引入原生视频续写任务,使模型能稳定生成分钟级长视频,并针对性优化跨帧时序一致性与物理运动合理性。
03 性能表现
LongCat-Video的136亿参数基座模型在文生视频、图生视频两大核心任务中达到开源SOTA(最先进水平)。
在公开基准测试中,LongCat-Video表现优异。在文本对齐与运动连贯等关键指标上表现突出。
评测覆盖文本对齐、图像对齐、视觉质量、运动质量与整体质量等多维度。
模型在VBench等测试中取得较好成绩,表明其综合能力在开源范围内处于领先地位。
04 开源生态与应用前景
LongCat团队已将相关代码与模型在GitHub、Hugging Face等平台开源,供开发者自由使用。
这一举措将加速视频生成技术的普及与创新。
美团将此次发布定位为其探索“世界模型”方向的第一步。
未来,凭借精准重构真实世界运行状态的能力,LongCat模型将融入美团持续投入的自动驾驶、具身智能等深度交互业务场景。
团队认为,这对于连接“比特世界”和“原子世界”具有重要技术基础意义。
从外卖战场到AI前沿,美团的这次技术突袭展示了其科技转型的决心。
随着LongCat-Video的开源,视频生成技术将从实验室快速走向产业应用,为自动驾驶、具身智能提供模拟环境。
AI不仅学会了“说话”,正在开始理解世界如何运转。