通过一句简单的中文描述,一张具有“摄影棚级”质感的图像便能在几分钟内从无到有,而这一切现在只需在消费级GPU上完成。
美团旗下的LongCat团队于12月8日正式宣布,发布并开源了参数规模为60亿的图像生成与编辑模型LongCat-Image。该模型以“高性能、低门槛、全开放”为目标,为开发者社区和产业界提供了新的选择。
在开源社区中,LongCat-Image已在图像编辑领域的多个重要基准测试中达到开源SOTA(State Of The Art)水平,其核心优化的重点落在“编辑可控性”和“汉字渲染”两大能力上。
01 模型核心:同源架构与渐进学习
LongCat-Image模型最突出的特点是采用了文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT)。
这一设计意味着,无论是从文字生成图像,还是对现有图像进行编辑,都使用同一套底层技术框架。
通过整合视觉语言模型(VLM)条件编码器,LongCat-Image实现了更精确的指令理解。官方表示,该模型支持通过文本提示生成图像,并能以自然语言指令对图像进行多轮编辑。
这种同源架构设计带来了一个显著优势:在多轮编辑过程中,能够保持图像风格、光照的一致性,不会出现明显的“拼接感”。
02 性能表现:开源领域的新标杆
LongCat-Image在多项基准测试中表现突出。在图像编辑基准测试GEdit-Bench和ImgEdit-Bench中,该模型分别获得了7.60/7.64(中英文)和4.50的分数,均达到开源模型中的领先水平。
该模型的轻量化设计使其能够在消费级GPU上实现高效推理。根据官方数据,LongCat-Image的参数规模为60亿(6B),相比其他大规模模型更加紧凑。
美团官方表示,LongCat-Image在核心能力维度上已经能够“逼近更大尺寸模型效果”。
03 中文支持:8105个汉字的覆盖能力
LongCat-Image特别强调了对中文场景的适配能力。该模型声称能够处理标准汉字、生僻字及部分书法字体,并可根据场景自动调整字体、大小和排版。
为了提升中文文本生成能力,LongCat-Image在预训练阶段学习了字形,并在后续训练中引入了真实世界文本图像数据以增强泛化能力。官方宣称,该模型的汉字覆盖率达到了8105个。
在技术实现上,LongCat-Image通过预训练阶段学习字形,并在后续训练中引入真实世界文本图像数据以提升泛化能力。
这种专门针对中文文本渲染的优化,使LongCat-Image在店铺牌匾、海报标题、书籍封面等需要精准文字呈现的场景中表现出色。
04 实际体验:连续编辑稳定,但仍有短板
根据36氪的实际测试,LongCat-Image在“连续指令编辑”方面表现出相对稳定的性能。测试中,基于同一角色图像进行多轮风格和主题修改时,模型能够保持角色结构稳定。
在电影海报制作场景中,该模型对参考图像的继承能力较为稳定,角色形象和动态姿势都能与原图保持高度一致。中文和英文标题的主要部分也较为清晰。
不过,测试也揭示了一些局限性。在复杂布局场景中,特别是“小字”区域,仍然存在乱码和中英文混杂的问题。
测试显示,当面临复杂UI设计和游戏界面生成等任务时,LongCat-Image在美学表现上显示出不足。生成的游戏界面倾向于十多年前的UI设计美学,与当前主流游戏产品存在明显差距。
在测评中,模型生成卡牌游戏、射击游戏和MOBA类游戏界面时,整体风格“与当前主流游戏产品显示出明显的代差”。
05 应用生态:从专业创作到日常使用
对于普通用户,美团在移动端的LongCat APP已支持文生图和图生图能力。应用同步上线了24个零门槛图片玩法模板,涵盖海报设计、人像精修、场景改造等多重场景。
用户只需点击“AI创作”便可直接套用这些模板,无需担心复杂的提示词编写。美团称这一设计旨在“彻底告别‘提示词焦虑’,小白也能快速产出专业级作品”。
对于开发者,LongCat-Image的模型权重和代码已在Hugging Face和GitHub平台开源。开发者可以基于这些资源进行二次开发,或将模型集成到自己的应用中。
网页端用户可通过访问 https://longcat.ai/ 体验图像生成功能。无论是移动端还是网页端,用户都可以对生成的图像进行多轮编辑。
在消费级GPU上高效运行的同时,LongCat-Image已能生成具有“摄影棚级”细节的图像。从实际测试生成的产品级渲染图来看,玩偶的短绒毛细节、眼睛的高光反射,以及沙发面料与玩偶绒毛的材质对比都能被准确呈现。
随着模型的开源,更多开发者将能够基于这一技术构建应用,进一步丰富AIGC生态。