在ChatGPT中上传一张个人照片,输入“将衬衫改成红色,帽子改成黄色,背景换成90年代的洛杉矶街头”,几秒钟后,一张精准编辑的新图像便呈现眼前——这就是OpenAI刚刚发布的GPT Image 1.5带来的变革。
当地时间12月16日,OpenAI正式发布了新一代图像生成模型GPT Image 1.5。这款全新模型不仅在生成速度上比前代提升高达4倍,还将API调用成本降低了20%,同时向所有ChatGPT用户免费开放。
此次更新被视为OpenAI对谷歌Gemini系列模型尤其是Nano Banana Pro的直接回应。
01 速度与成本
OpenAI此次发布的GPT Image 1.5模型,最直观的改进在于性能表现的飞跃。据官方数据显示,新模型的图像生成速度相比前代提升高达4倍。
在API成本控制方面,OpenAI同步实施了降价策略。GPT Image 1.5的图像输入与输出单价相较上一代降低了20%,这意味着开发者和企业用户能够以更低的成本完成更多的图像生成任务。
此次更新不仅面向付费用户,OpenAI还将GPT Image 1.5向所有ChatGPT免费用户开放。
02 精准编辑
GPT Image 1.5的核心突破在于其精准编辑能力的大幅提升。新模型能够更好地遵循用户指令,对上传图像进行精细化修改。
与以往AI编辑容易导致图像“面目全非”不同,GPT Image 1.5在编辑过程中能够智能保持原始图像的光照、构图和人物细节一致性。
模型擅长多种类型的编辑操作,包括添加、删除、合并、混合和转置图像元素。在实际演示中,它能够将人物衬衫改为红色、帽子改为黄色,甚至将卡车变为消防车,同时保持背景和其他细节不变。
03 用户体验
为了优化创作流程,ChatGPT界面新增了独立的“图像”功能入口,点击侧边栏即可进入专门打造的图像创作空间。
这一空间内置了多种预设滤镜和热门提示词,定期更新以反映最新趋势,即使是提示词编写经验较少的用户,也能通过这些辅助工具快速生成满意的图像。
针对需要角色一致性的创作需求,系统支持“一次性外观上传”功能。用户可以上传特定人物或形象照片,在后续多次生成中保持该外观的一致性,无需反复选择和调整。
04 竞争与差距
GPT Image 1.5的发布,正值图像生成AI市场竞争白热化之际。自谷歌9月推出Gemini Nano Banana模型,并随后升级至Nano Banana Pro以来,其在图像生成质量和编辑灵活性上的表现获得了广泛关注。
OpenAI此次将GPT Image 1.5定位为应对竞争的关键产品,在图像编辑的精细控制、品牌标识及人脸等关键视觉元素的还原精度方面进行了重点优化。
OpenAI也坦诚指出了新模型仍存在的局限性。虽然在处理英文字体方面已经相当出色,但官方承认GPT Image 1.5在生成中文、阿拉伯语、希伯来语等文字时仍有困难。
05 实际应用
从商业创作到个人娱乐,GPT Image 1.5展示了广泛的应用潜力。在创意设计领域,它能够将文本描述转化为复杂的视觉表达。
OpenAI首席执行官山姆·奥特曼在社交平台上分享了一组由新模型生成的男性写真日历图像,引发广泛讨论。
新模型在文本渲染方面也有显著进步,能够处理更密集、更小的文字内容。它可以自然地将Markdown格式内容排版成报纸文章样式,精准呈现标题、段落、粗体与表格,在图像中保留完整格式与数字信息。
目前,GPT Image 1.5已经全面集成到ChatGPT中,用户可以通过网页版或移动应用直接体验这一功能。在创作界面中,用户可以选择从数十种预设滤镜中获得灵感,或者直接输入创意提示。
对于开发者和企业用户,GPT Image 1.5也已通过API开放,以更低的成本和更快的速度为其应用赋能。
当图像生成从专业工具变为大众可及的创作手段,当精准编辑不再需要复杂软件操作,数字内容的创作门槛正在被重新定义。GPT Image 1.5不仅代表了技术的进步,更预示着一个全民创意时代的加速到来。