一张风景照中的云朵被随意移动位置,而背后的天空和山脉纹丝不动;电商海报上的模特换装后,皮肤光影和背景细节完美保留——这些原本需要专业设计师在Photoshop中精心操作的步骤,现在只需AI一键完成。
阿里巴巴通义千问团队近日开源全新图像模型Qwen-Image-Layered,首次在AI内部实现了类似Photoshop的图层理解与生成能力。
这项技术能将普通照片或AI生成的图像自动拆解为多个可独立编辑的透明图层,解决长期困扰AI图像编辑的“一致性难题”。
01 技术破局
传统AI图像编辑面临的根本困境在于图像表示方式。光栅图像将所有视觉内容融合在单一画布上,修改任何区域都可能引发连锁反应。
专业设计师使用的Photoshop等工具则采用分层表示,不同元素位于独立图层,编辑互不干扰。Qwen-Image-Layered的突破正是将这一专业工作流程引入AI模型内部。
该模型的核心创新体现在三个关键技术组件:RGBA-VAE统一了RGB与RGBA图像的潜在表示;VLD-MMDiT架构支持灵活分解出数量可变的图像图层;多阶段训练策略则将预训练的图像生成模型逐步适配为多图层分解器。
02 工作原理
Qwen-Image-Layered的工作流程令人联想到“逆向工程”。当输入一张普通RGB图像时,模型首先通过RGBA-VAE将其编码到潜在空间。
随后,VLD-MMDiT架构开始发挥作用,分析图像中的视觉元素及其层次关系,将图像分解为3到8个(甚至更多)语义解耦的RGBA图层。
每个图层不仅包含颜色信息(RGB),还带有透明度通道(Alpha),这正是专业设计中图层可独立操作的基础。一旦分解完成,用户就可以像在Photoshop中一样,选择特定图层进行重新着色、替换物体、修改文字或调整位置。
03 “零漂移”编辑
传统AI编辑中最令人头疼的问题是“语义漂移”——当试图修改图像的某个部分时,其他区域常常会发生意外变化。
Qwen-Image-Layered通过物理隔离的图层编辑从根本上解决了这一问题。编辑操作仅作用于目标图层,其他图层内容完全保持不变,实现了几乎“零漂移”的精准编辑。
这种能力在处理复杂场景时尤为突出。例如,在修改电商海报中模特的服装颜色时,传统的AI编辑可能会连带改变模特的肤色、发型甚至背景;而基于图层的编辑则能精确控制修改范围,仅调整服装图层,保持其他所有元素原封不动。
04 训练数据突破
高质量的多图层训练数据极为稀缺,这是此前类似研究面临的主要瓶颈。Qwen团队为此开发了创新的数据处理管道。
他们直接从真实的Photoshop源文件(PSD)中提取并标注多图层图像,构建了高质量的训练数据集。这一方法不仅解决了数据稀缺问题,还确保模型学习到的是符合专业设计标准的图层分解逻辑。
实际应用显示,模型能够理解复杂场景中的遮挡关系和视觉层次。在一张包含前景人物、中景建筑和背景天空的图像中,模型能准确地将不同元素分配到独立图层,并正确处理它们之间的透明度和遮挡关系。
05 行业应用前景
Qwen-Image-Layered的开源发布预计将显著降低视觉内容制作的技术门槛和成本。对于广告设计、影视制作和电商行业,这意味着无需专业设计师介入,即可快速完成高质量的图像编辑和素材准备。
办公场景同样受益,有技术爱好者展示了将静态图片分解后直接导出为可编辑PPT文件的工作流程,极大简化了演示文稿的制作过程。
模型支持商业免费调用,开发者已同步上线开源仓库与演示接口。技术报告、代码仓库及Demo已分别在arXiv、GitHub和ModelScope平台上线,为研究者和开发者提供了完整的资源支持。
广告公司已经开始测试用Qwen-Image-Layered批量处理商品图,为同一款沙发生成不同颜色的版本;影视后期团队则尝试用它快速调整场景中的道具摆放。
在开源社区,开发者正探索将这一技术集成到更多创意工具中。从专业设计软件到普通用户的手机修图应用,“图层意识”正在成为AI图像处理的新标准。
GitHub上,Qwen-Image-Layered的代码仓库星标数持续增长。一位开发者评论道:“这就像给AI装上了Photoshop的大脑,但它比人类设计师更快、更不知疲倦。”