只需一段文字描述,一个长达20秒、包含同步对话与背景音效的4K视频便在本地电脑上生成。AI视频创作“先画面、后配音”的繁琐时代,被以色列公司Lightricks划上了句号。
2026年1月6日,创意软件公司Lightricks在CES展会上正式宣布开源其新一代视听合成基础模型LTX-2。
这个包含190亿参数的模型,能够依据简短文本,一次性生成长达20秒、音画完全同步的4K高清视频。
此次开源将原本只有顶级商业工具才能实现的音画同步生成能力,全面下放给了全球开发者和普通创作者。
01 技术突破:告别“无声电影”,开启原生音画同步时代
当前绝大多数AI视频模型,如Sora、Runway等,都只能生成“无声电影”,后期配音工作复杂且难以对齐口型。
LTX-2的核心革命在于其 “非对称双流并行架构” 。它并非简单地将音频和视频模块拼接,而是用140亿参数专攻复杂的视频生成,50亿参数处理音频,两者通过双向交叉注意力机制深度耦合。
这一设计模拟了现实世界中视觉与听觉信息密度的自然差异,让AI在生成画面的同时,能理解并同步生成与之匹配的声音元素。
这意味着,当模型“想象”出一只鸟在雨中飞翔时,它会同步“脑补”出鸟的鸣叫、翅膀的扑腾声和雨滴的环境音,并将这些声音精准地嵌入视频的对应时间点。
02 核心能力:不止于口型同步,构建完整听觉场景
LTX-2生成的音频是一个完整、立体的声音轨道,远远超越了简单的口型同步。
除了生成与人物唇形完美匹配的对话语音,它还能生成丰富的环境音、拟音效果,甚至与场景情绪相符的背景音乐元素。
例如,生成一个“咖啡师在繁忙咖啡馆制作拿铁”的视频,模型会同时输出咖啡机的蒸汽声、牛奶打发声、店内模糊的背景人声以及杯碟碰撞的清脆响声。
根据NVIDIA官方指南,该模型能生成最高4K分辨率、50帧/秒的高流畅度视频,为高质量短视频和创意内容提供了开箱即用的解决方案。
03 效率革新:消费级硬件运行,速度领先竞品18倍
与依赖云端算力的闭源模型不同,LTX-2针对本地消费级显卡进行了深度优化。
通过与NVIDIA的紧密合作,LTX-2提供了NVFP8量化版本,使模型体积减小约30%,并在RTX GPU上实现最高2倍的性能提升。
实测数据显示,在主流企业级显卡上,生成一段720p分辨率的内容,每步推理仅需1.22秒,整体效率据称可达某些竞品的18倍。即使使用RTX 4090显卡,生成一段10秒的4K视频也仅需8-12分钟。
为了让更多设备能够运行,NVIDIA与ComfyUI合作强化了其“权重流式传输”功能。当GPU显存不足时,系统可自动将部分工作负载转移到系统内存中,大幅降低了使用门槛。
04 开源生态:完全开放权重,引爆开发者社区
Lightricks此次采取了激进的完全开源策略。发布的不仅是最佳化的模型权重,还包括完整的推理代码、训练代码以及用于微调的LoRA训练支持包。
模型采用宽松的许可协议,允许商业使用、修改和再分发。这立刻在开发者社区引发热潮,模型迅速在Hugging Face和GitHub上成为焦点。
开源生态带来了灵活的应用模式。除了官方模型,社区迅速衍生出多种变体。例如,LTX-2蒸馏版专为快速迭代设计,能在几秒钟内生成10秒左右的视频草稿。
还有服务商提供了图像转视频的专用API,用户上传一张静态图片,即可将其转化为带声音的动态视频,极大简化了内容创作流程。
05 应用前景:从营销短视频到影视级原型制作
LTX-2的开源正在重塑多个内容创作领域。
对于短视频营销和社交媒体内容,它实现了“一站式”生产。创作者输入产品描述,即可直接获得带解说、音效和音乐的成片,单人日产量有望提升数十倍。
在教育课件和培训材料制作中,教师可以将静态图表转化为带有讲解动画和说明声音的短片,让知识传递更加生动。
对于影视级的高端制作,LTX-2的“旗舰模式”支持原生4K/50fps输出,其音画同步质量可直接用于电影特效预览和高端宣传片的原型制作,省去了昂贵的后期配音对口型环节。
LTX-2模型开源后,迅速在GitHub上获得了大量开发者的关注。一位独立开发者利用该模型,在个人电脑上为一款独立游戏生成了全部的角色预告片,成本几乎为零。
当技术壁垒被打破,工具变得普及且高效,创意的闸门将被真正打开。正如Lightricks所预示的,生成式AI的“无声电影时代”可能正走向终结。