三张图、一段提示词,生成8秒高清视频。谷歌正式将“Ingredients to Video”功能推向普通用户,彻底改变了AI视频创作的随机性难题。
当地时间11月15日,谷歌通过其官方社交媒体账号宣布,为Gemini Pro/Ultra订阅用户带来Veo 3.1视频模型的重大更新——多图参考视频生成功能正式上线。
这项名为“Ingredients to Video”的模式,允许用户同时上传三张参考图,分别从这些图像中提取人物、场景与风格特征,融合生成一个8秒的1080p高清视频。
此前,该功能仅在Google Flow和Vertex AI等专业工具中提供,如今已全面向Gemini App的付费用户开放,标志着谷歌正将专业级AI视频创作能力推向大众市场.
01 三图融合:重塑AI视频创作范式
“Ingredients to Video”功能的推出,解决了AI视频生成领域长期存在的可控性难题。
根据谷歌官方说明,用户可上传三张参考图像,系统会智能识别每张图的独特要素。
第一张图定义主体角色,如人物或主要对象;第二张图设定背景环境;第三张图决定艺术风格,最终结合文本提示生成连贯视频。
在实际演示中,用户上传一张个人自拍、一张赛博城市背景和一张油画风格图,Veo 3.1成功生成了“印象派未来街头漫步”的短片,且脸部与服装实现零形变。
多图参考功能让用户能精准控制视频的多个视觉要素,从根本上改变了AI视频生成依赖“抽卡”的随机模式。
02 技术突破:细节处理与一致性保障
除多图融合外,Veo 3.1在细节处理上展现了显著进步。该模型能保持跨帧角色的一致性和光影的连贯性,避免了AI视频中常见的角色变形或光影跳跃问题。
谷歌还为Veo 3.1配备了原生环境音同步输出功能,无需后期处理即可为视频添加匹配的声效,增强了作品的沉浸感。
在视频控制方面,Veo 3.1支持首尾帧控制以及视频延伸功能,用户可对生成内容进行更精细的调整与扩展。
这些技术提升共同保证了输出视频的流畅度与专业度,使其更接近专业编辑手工制作的效果。
03 可用性与安全:全量开放与版权保护
谷歌此次采取了相当开放的策略,多图参考功能已全量开放给Gemini Pro/Ultra订阅用户,生成配额与现有订阅额度一致,无需额外付费。
对于版权保护这一创作者关心的问题,谷歌也为Veo 3.1配备了 SynthID隐形水印技术,可在不影响观看体验的前提下为视频添加独特标识,保障内容安全。
不过,Veo 3.1目前仍有一些限制。与竞争对手OpenAI的Sora相比,Gemini和Veo 3会拒绝生成某些内容的视频,而Sora则设置了相对宽松的防护栏。
04 市场定位:与Sora 2的竞争与差异化
谷歌Veo 3.1的更新正值AI视频生成领域竞争白热化阶段。根据对比数据,Veo 3.1与OpenAI的Sora 2各有优势。
在输出时长方面,Veo 3.1默认生成4-8秒视频,但可扩展至148秒,优于Sora 2的5-10秒。
而在分辨率上,Sora 2默认支持1080p,Veo 3.1默认仅为720p,1080p仅限8秒视频。
价格也是两者差异的关键点。Veo 3.1标准版定价为0.4美元/秒,而Sora 2为0.1美元/秒,Sora 2 Pro版为0.3美元/秒。
行业分析师指出,谷歌似乎正通过提升控制精度而非单纯追求画质的方式,与OpenAI形成差异化竞争。
05 行业趋势:从单点突破到全场景落地
Veo 3.1的多图参考功能上线,反映了整个AI视频生成行业正从“单点突破”迈入“全场景落地”的深水区。
无独有偶,昆仑万维近期推出的SkyReels V3同样聚焦多模态视频生成,支持基于多主体参考图像的视频生成。
国内厂商生数科技发布的Vidu Q1也强调通过技术手段引入多元素控制,解决位置、运动轨迹、主体数量增加等行业难题。
这些技术发展共同指向一个方向:AI视频生成正从追求时长和画质,转向提升可控性和精准度,让创作者能够更好地实现心中所想。
AI视频生成领域的竞争已从单纯的技术参数比拼,升级为用户体验和控制精度的较量。谷歌Veo 3.1的多图参考功能代表了这一趋势的最新进展。
随着这项技术从专业工具向普通用户渗透,未来可能会有更多创作者能够轻松将复杂创意转化为视觉作品。
视频创作的门槛正在AI的助力下持续降低,一个全民视频创作的时代或许真的不远了。