清晨的阳光透过窗户照在旧照片上,照片里的童年记忆已微微泛黄,你对着手机轻声说了一句“修复这张老照片,让颜色鲜亮一些”,几秒后,一张如初的影像便展现在眼前。
这是腾讯混元图像3.0图生图模型带来的最新体验。1月26日,腾讯混元正式发布混元图像3.0图生图(HunyuanImage 3.0-Instruct)模型,已在AI助手“元宝”全端及官网同步上线。
01 模型发布
1月26日,腾讯混元正式发布了混元图像3.0图生图模型,这一发布引起了行业内广泛关注。
这款模型官方名称为HunyuanImage 3.0-Instruct,最大的特点是支持图片编辑与多图融合两大核心能力。
最值得注意的是,该模型已在其AI助手应用“元宝”上同步上线,用户可以在手机、平板等全端或访问腾讯混元官网直接体验这一新功能。
02 核心技术
混元图像3.0图生图模型采用混合专家(MoE)架构,总参数量达到80亿。在这80亿参数中,激活参数约为13亿,这种设计旨在平衡模型的性能和计算效率。
模型基于混元图像3.0原生多模态基础模型为底座,引入图生图的多任务训练数据。这种设计让模型能够深度理解用户输入的图像内容,并根据文本指令进行推理,精确判断需要编辑的区域、具体操作步骤以及应当保留的部分。
为了让模型掌握多样化的编辑技能,研发团队构建了覆盖80余类任务、规模达千万级的图生图专属数据集。
这些数据来源于图像与视频原始挖掘,并结合专家网络合成策略,在持续训练阶段被系统注入模型。
03 工作原理
混元图像3.0图生图模型被团队定义为 “会思考”的图像编辑模型 。它的工作流程分为几个关键阶段,形成了一个完整的“理解—推理—编辑—融合”链路。
当模型收到用户输入的图片和提示词后,首先会深度理解图像内容本身,然后基于用户的文本指令进行推理。这个推理过程会形成详细的编辑指令,规划需要保留的区域和需要修改的细节。
为了提升推理的精确性,研发团队还专门为图生图任务设计了思维链机制,引导模型在执行编辑前主动分析图像语义与用户意图。
在指令执行与对齐阶段,模型采用自研MixGRPO算法,结合多轮奖励建模与迭代优化,高效对齐用户偏好。这种设计显著增强了非编辑区域的内容一致性与稳定性。
04 功能特点
模型支持多样化的图片编辑操作,包括对象增删、局部修改、风格迁移、老照片修复、人物形象调整及文字编辑等。
模型特别增强了人物与文字相关的编辑能力,可以对这些元素进行精确修改。在多图融合方面,模型能够从多张图片中提取人物或元素,完成合照合成与全新图像生成。
在生成效果方面,模型在指令遵循方面表现稳定,生成图像具有一致性强、真实感突出、情绪表达自然等特点。
同时,与前代模型相比,该模型的推理速度也有明显提升。
05 应用场景
混元图像3.0图生图模型的应用场景覆盖了从个人娱乐到专业生产的广泛领域。
在个人创意方面,用户可以利用模型便捷完成表情包创作、虚拟人物合拍、社交内容生成等任务。
模型还可以应用于电商海报设计、游戏角色定制及各类创意图像制作等专业化场景。
老照片修复是另一个重要应用方向,模型能够将泛黄、模糊的老照片还原成清晰鲜艳的图像。
多图融合能力则允许用户将不同照片中的人物提取出来,合成自然协调的合照或全新画面。
06 性能与上线
根据相关测试,混元图像3.0图生图模型在盲测中表现与国内外领先闭源模型基本持平。生成图片具有高真实感和良好情绪表现力。
模型采用“先思考后编辑”的工作机制,在收到输入后会分析图像内容并推理编辑步骤,确保输出效果的一致性。
目前,该功能已在腾讯元宝应用全端及腾讯混元官网同步上线,用户可以立即体验。
一位专业设计师在体验混元图像3.0后感慨:“以往需要花费数小时在专业软件上完成的复杂修图,现在仅需一句清晰的指令。”她尝试将多张不同角度拍摄的服装产品图融合成一张展示图,不到一分钟就获得了满意的结果。
应用商店里,元宝应用的下载量在模型上线后出现明显增长,社交媒体上用户分享的AI修图案例从简单的背景替换,发展到复杂的多图元素融合。
随着混元图像3.0的全面开放,专业设计领域的效率革命与普通人图像创作的门槛降低正在同步发生。