首个音画同步开源模型LTX-2发布，20秒4K视频一键生成_资讯

首个音画同步开源模型LTX-2发布，20秒4K视频一键生成

作者：安安

 时间：2026-01-13 11:03:32

只需一段文字描述，一个长达20秒、包含同步对话与背景音效的4K视频便在本地电脑上生成。AI视频创作“先画面、后配音”的繁琐时代，被以色列公司Lightricks划上了句号。

2026年1月6日，创意软件公司Lightricks在CES展会上正式宣布开源其新一代视听合成基础模型LTX-2。

这个包含190亿参数的模型，能够依据简短文本，一次性生成长达20秒、音画完全同步的4K高清视频。

此次开源将原本只有顶级商业工具才能实现的音画同步生成能力，全面下放给了全球开发者和普通创作者。

01 技术突破：告别“无声电影”，开启原生音画同步时代

当前绝大多数AI视频模型，如Sora、Runway等，都只能生成“无声电影”，后期配音工作复杂且难以对齐口型。

LTX-2的核心革命在于其 “非对称双流并行架构” 。它并非简单地将音频和视频模块拼接，而是用140亿参数专攻复杂的视频生成，50亿参数处理音频，两者通过双向交叉注意力机制深度耦合。

这一设计模拟了现实世界中视觉与听觉信息密度的自然差异，让AI在生成画面的同时，能理解并同步生成与之匹配的声音元素。

这意味着，当模型“想象”出一只鸟在雨中飞翔时，它会同步“脑补”出鸟的鸣叫、翅膀的扑腾声和雨滴的环境音，并将这些声音精准地嵌入视频的对应时间点。

02 核心能力：不止于口型同步，构建完整听觉场景

LTX-2生成的音频是一个完整、立体的声音轨道，远远超越了简单的口型同步。

除了生成与人物唇形完美匹配的对话语音，它还能生成丰富的环境音、拟音效果，甚至与场景情绪相符的背景音乐元素。

例如，生成一个“咖啡师在繁忙咖啡馆制作拿铁”的视频，模型会同时输出咖啡机的蒸汽声、牛奶打发声、店内模糊的背景人声以及杯碟碰撞的清脆响声。

根据NVIDIA官方指南，该模型能生成最高4K分辨率、50帧/秒的高流畅度视频，为高质量短视频和创意内容提供了开箱即用的解决方案。

03 效率革新：消费级硬件运行，速度领先竞品18倍

与依赖云端算力的闭源模型不同，LTX-2针对本地消费级显卡进行了深度优化。

通过与NVIDIA的紧密合作，LTX-2提供了NVFP8量化版本，使模型体积减小约30%，并在RTX GPU上实现最高2倍的性能提升。

实测数据显示，在主流企业级显卡上，生成一段720p分辨率的内容，每步推理仅需1.22秒，整体效率据称可达某些竞品的18倍。即使使用RTX 4090显卡，生成一段10秒的4K视频也仅需8-12分钟。

为了让更多设备能够运行，NVIDIA与ComfyUI合作强化了其“权重流式传输”功能。当GPU显存不足时，系统可自动将部分工作负载转移到系统内存中，大幅降低了使用门槛。

04 开源生态：完全开放权重，引爆开发者社区

Lightricks此次采取了激进的完全开源策略。发布的不仅是最佳化的模型权重，还包括完整的推理代码、训练代码以及用于微调的LoRA训练支持包。

模型采用宽松的许可协议，允许商业使用、修改和再分发。这立刻在开发者社区引发热潮，模型迅速在Hugging Face和GitHub上成为焦点。

开源生态带来了灵活的应用模式。除了官方模型，社区迅速衍生出多种变体。例如，LTX-2蒸馏版专为快速迭代设计，能在几秒钟内生成10秒左右的视频草稿。

还有服务商提供了图像转视频的专用API，用户上传一张静态图片，即可将其转化为带声音的动态视频，极大简化了内容创作流程。

05 应用前景：从营销短视频到影视级原型制作

LTX-2的开源正在重塑多个内容创作领域。

对于短视频营销和社交媒体内容，它实现了“一站式”生产。创作者输入产品描述，即可直接获得带解说、音效和音乐的成片，单人日产量有望提升数十倍。

在教育课件和培训材料制作中，教师可以将静态图表转化为带有讲解动画和说明声音的短片，让知识传递更加生动。

对于影视级的高端制作，LTX-2的“旗舰模式”支持原生4K/50fps输出，其音画同步质量可直接用于电影特效预览和高端宣传片的原型制作，省去了昂贵的后期配音对口型环节。

LTX-2模型开源后，迅速在GitHub上获得了大量开发者的关注。一位独立开发者利用该模型，在个人电脑上为一款独立游戏生成了全部的角色预告片，成本几乎为零。

当技术壁垒被打破，工具变得普及且高效，创意的闸门将被真正打开。正如Lightricks所预示的，生成式AI的“无声电影时代”可能正走向终结。

分享到：

百度文小言升级文心App，上线“魔法漫画”定义AI创作新高度

 2025-11-03
苹果公司启动自研 AI 搜索引擎研发，计划 2026 年春季推出 “世界知识问答” 系统

 2025-09-05
中国开源模型Kimi K2表现惊艳，智能体场景准确率超GPT-5

 2025-10-22
30亿豪赌，阿里的春节“阳谋”

 2026-02-03
Kimi K2.5悄然上线：能“看懂”图像，更能调度百个AI“分身”协同工作

 2026-01-28
谷歌地图全面AI化！Gemini驱动“地图智能体”上线，一句话生成交互地图

 2025-11-12

热门标签

百度文小言升级文心App，上线“魔法漫画”定义AI创作新高度

苹果公司启动自研 AI 搜索引擎研发，计划 2026 年春季推出 “世界知识问答” 系统

中国开源模型Kimi K2表现惊艳，智能体场景准确率超GPT-5

30亿豪赌，阿里的春节“阳谋”

Kimi K2.5悄然上线：能“看懂”图像，更能调度百个AI“分身”协同工作

谷歌地图全面AI化！Gemini驱动“地图智能体”上线，一句话生成交互地图

Trae2.0重磅发布—一个具备上下文工程能力的系统

AI 提示词管理工具 AI Gist 正式上线

物流机器人时代要来了？！

字节跳动 AI 编程工具 TRAE 2.0 即将发布，新增语音交互功能

AI导游重塑文旅及物流消费体验

魔镜洞察

拜特科技

奇墨科技

致远互联

滴普科技

关于Tech技术加

快速导航

热门推荐

关注我们

微信在线客服

电话： +86 15618587198