图像生成领域的技术路线之争,正在迎来一个新的变量。硅谷初创公司Luma AI于3月23日正式发布图像生成模型Uni-1,以一种截然不同的技术思路,向扩散模型主导的市场格局发起挑战。
告别扩散模型:Uni-1的架构变革
Uni-1放弃了当前主流的扩散模型路线,转而采用decoder-only自回归Transformer架构,将文本token与图像token交错排列为单一序列,在同一次前向传播中完成推理与像素生成。这意味着Uni-1在生成图像时能够像语言模型一样进行推理,而非仅仅“降噪出图”。
Luma AI首席执行官Amit Jain解释称,传统方案通常是先用语言模型规划、再交给扩散模型生成,两个阶段之间存在信息损耗。Uni-1的设计目标正是消除这个断层。Jain此前曾任职于苹果公司,参与过Vision Pro的工程工作。
这一架构选择的深层意义在于,Uni-1不需要分别训练“理解模块”和“生成模块”,而是在一个统一框架内同时建模时间、空间和逻辑关系。更有意思的是,Luma团队发现生成训练能显著提升理解能力——当模型学会“画画”之后,它“看图”的能力也变强了。
功能亮点:从参考图控制到信息图生成
在功能层面,Uni-1支持单张或多张参考图引导生成,能够稳定保留人物身份、姿势与构图细节。官方测试显示,在处理角色一致性和人像控制时,多参考图模式表现稳定。
模型声称兼容76种视觉风格,涵盖写实摄影、漫画、浮世绘等多元类别。一个典型演示场景是:输入“画一张金门大桥信息图”,模型会自动规划布局,生成桥梁结构图并标注“1711 Meters”等数据,内部推理过程实时可见。
在实际体验中,有测试者输入“生成一张宿命感照片,一个长发飘飘的女子身穿战国袍,配了把剑”,Uni-1会先花几秒钟分析需求,再进行创作。生成的画面具有电影感,头发和衣摆随风自然飘动,服饰质感突出,语义理解精准。
基准测试:推理能力拉开差距
在关键基准测试中,Uni-1交出了一份亮眼的成绩单。在RISEBench推理基准上,Uni-1总分达到0.51,超越Google Nano Banana 2的0.50和OpenAI GPT Image 1.5的0.46。拆解来看,Uni-1在空间推理单项得分0.58,逻辑推理得分0.32,约为GPT Image的两倍。
在ODinW-13物体检测基准测试中,Uni-1完整版得分46.2 mAP,几乎追平谷歌Gemini 3 Pro的46.3。值得注意的是,Uni-1仅具备理解能力的变体得分为43.9,而完整版提升了2.3分——这直接证明了学会生成图像能反过来提升模型的图像理解能力。
在人类偏好Elo排名中,Uni-1在整体偏好、风格与编辑、参考生成三项位列第一,文生图单项排名第二。有Reddit用户在逐一对比后评价:“在真正的逻辑推理、复杂场景理解、需要深度思考的编辑任务上,Uni-1完全碾压”。
定价策略:高分辨率场景更具性价比
API定价方面,Uni-1采用按token计费模式:输入文本每百万token收费0.50美元,输入图像每百万token收费1.20美元,输出文本与思考链每百万token收费3.00美元,输出图像每百万token收费45.45美元。
换算为单张图像,2048px文生图约0.0909美元,带单张参考图的编辑约0.0933美元,8张参考图约0.1101美元。据VentureBeat报道,在2K分辨率企业场景下,Uni-1的成本比Google Nano Banana 2低10%至30%。
面向个人用户,官网已开放免费试用,企业API接入通道也在逐步上线。
背后团队:不到15人的华人精锐
令人意外的是,能实现如此效果的Uni-1,背后是一支不到15人的华人研究团队。两位研究负责人分别是宋佳铭和沈博魁——宋佳铭是DDIM(Denoising Diffusion Implicit Models)的发明者,这篇论文被引用超万次,获得ICLR 2022 Outstanding Paper Award;沈博魁则曾获CVPR 2018 Best Paper Award。
这支小规模团队的选择是:不把理解和生成分开做,而是用一个统一的模型把两件事一起搞定。
行业意义与未来展望
Uni-1的发布标志着AI图像生成的竞争正在从“谁的图更好看”转向“谁的模型更能理解指令”。扩散模型统治这一领域已有三年之久,而自回归架构以大语言模型式的推理能力切入,第一次在核心基准测试上证明了这条路线的可行性。
发布数小时内,Uni-1相关帖子在X平台获得超过230万次浏览。Luma表示,Uni-1只是第一步,下一阶段这一统一框架将从静态图像扩展到视频、语音、交互式世界模拟——最终目标是构建能够“看、说、推理、想象”的统一多模态系统。
从一家150人的旧金山初创公司出发,自回归路线能否在图像生成领域站稳脚跟,尚需时间检验。但可以确定的是,这场“架构之争”才刚刚进入正赛