谷歌用一款代号“纳米香蕉”的AI模型重新定义了图像编辑,它不仅能理解你的文字指令,更能保持人物、动物外观的一致性,甚至能模拟现实世界的因果关系。
谷歌DeepMind在8月26日正式发布了Gemini 2.5 Flash图像编辑模型,该模型在LMArena基准测试中位居AI图像编辑模型榜首。其核心突破在于能够根据自然语言指令对图像进行精准编辑,同时在多张图像中保持同一对象的外观一致性。
这款模型在上周以“nano-banana”的代号匿名出现在大模型竞技场时,就已经获得了超过200万用户的投票认可。正式发布后,它在图像编辑榜单上以1362的高分遥遥领先,比第二名高出近15%。
01 多模态能力升级
谷歌此次推出的Gemini 2.5 Flash Image是其最先进的图像生成与编辑模型。该模型可根据文字指令,在保持人物与动物外观一致的情况下,提高图像修改精度。与此前的图像生成工具相比,它在根据文字进行图像修改时的准确率更高。在多项任务中表现优于GPT-4o。新模型支持融合最多三张图像、风格迁移及“现实推理”模拟简单因果关系。例如,它可以生成气球飞向仙人掌及其后续结果的画面。
02 三项核心突破
Gemini 2.5 Flash Image的核心优势体现在三个关键方面:角色一致性、自然语言精准编辑和多图像融合能力。角色一致性功能可在多张生成图像中维持同一人物、动物或物体的外观一致,即使姿势、背景或光线发生变化。这对品牌素材与产品目录制作特别有价值。精准的局部文字编辑功能使用户无需手动圈选区域,就能完成背景虚化、瑕疵去除、颜色添加或物体移除等操作。
03 技术性能表现
在基准测试中,Gemini 2.5 Flash Image在用户综合喜好度、人物、创造力、信息图、物体和环境的生成上均领先GPT-4o图像生成、Flux.1 Kontext等模型。不过测试也显示,在风格化能力方面,该模型与GPT-4o图像生成仍存在一定差距。知名AI基准测试机构Artificial Analysis的测试表明,谷歌新模型在图像编辑方面排名第一,超过了OpenAI的GPT-4o和国内阿里的Qwen-Image-Edit。
04 实际应用场景
谷歌专门以消费者使用场景为导向设计了这款图像模型。例如帮助用户可视化家居和园艺项目。模型还具备更好的“世界知识”,可在单个提示中结合多个参考图像。比如将一张沙发图片、一张客厅照片和一个配色板合成为一致的渲染效果。在电子商务领域,这款模型可以理解和合并多个输入图像。商家可以在同一场景中用AI生成不同产品的宣传照,为客户展示家具等产品摆放在真实场景中的样子。
05 开发者接入与定价
作为一款主要面向开发者的模型,Gemini 2.5 Flash Image目前可通过Gemini API、Google AI Studio以及面向企业的Vertex AI平台获取。其定价策略为每100万个输出token收费30美元。每张图像包含约1290个输出token,因此每张图像的成本约为0.039美元(折合人民币约0.28元)。谷歌对AI Studio的“构建模式”进行了重大更新。开发者可以使用该模式快速测试Gemini 2.5 Flash Image等新模型的功能,并在准备好发布应用时直接从AI Studio进行部署或将代码保存到GitHub。
06 安全防护措施
考虑到AI生成内容的潜在风险,谷歌在新模型中设置了安全防护机制来限制可生成的内容。谷歌服务条款中关于生成式AI的部分禁止用户生成“未获同意的亲密影像”。相比之下,类似的防护似乎并不存在于xAI的Grok上,后者允许用户创建与名人相似的AI露骨图像。为应对深度伪造图像的兴起,谷歌会在AI生成的图像上应用可见水印,并在其元数据中加入不可见的SynthID数字水印。
谷歌DeepMind视觉生成模型产品负责人Nicole Brichtova表示:“我们在推动视觉质量提升的同时,也在提升模型遵循指令的能力。这次更新能更无缝地完成编辑,模型输出也足够可用,满足你想用它来做的各种事情。”
目前,海外AI创意平台Kera AI已经利用类似技术,成功制作了一部广告大片。有用户利用它快速打造了月饼广告宣传照,称同样的提示词在Midjourney里要花上10倍的调整和微调才能产生类似的结果。这款模型每生成一张图像的成本仅约0.039美元,让高质量图像编辑变得前所未有的廉价和 accessible。