腾讯混元发布全新升级的“混元图像2.1”模型,支持千字描述与原生2K高清图像生成,同时宣布正在开发原生多模态模型,推动AI图像生成进入新阶段。
2025年9月9日,腾讯混元正式发布了其最新的生图模型—混元图像2.1(HunyuanImage 2.1)。此次更新不仅带来了技术上的显著革新,也预示着腾讯在人工智能图像生成领域迈出了坚实的一步。新模型支持最长1000个tokens的提示词和原生2K分辨率图像生成,这意味着用户可以更加详细、精准地描述他们想要的图像,并获得更高质量的视觉输出。
01 技术升级:更长提示词与更高清晰度
混元图像2.1版本展现出腾讯在AI图像生成领域的技术实力。新模型支持长达1000个tokens的提示词输入,使用户能够提供极其详细的内容描述。相比之前版本,2.1版在图像生成质量上有明显提升,支持原生2K高清生图,在当前主流图像生成模型中处于领先地位。更高的分辨率意味着更丰富的细节表现,为设计师、艺术家等专业用户提供了更大的创作空间。无论是生成高保真的创意插画,还是制作包含中英文宣传语的海报和包装设计,混元图像2.1都能提供高质量的支持。
02 架构创新:双文本编码器与高效推理
混元图像2.1在模型架构上进行了多项创新。它配备了双文本编码器:一个MLLM模块用于提升图文对齐能力,另一个ByT5模型则增强了文字生成表现力。为大幅降低计算量、提升训练和推理效率,模型采用了32倍超高压缩倍率的VAE,并使用dinov2对齐和repa loss来降低训练难度。这使得模型能够高效原生生成2K图。值得一提的是,混元图像2.1在17B参数量级的模型上解决了平均流模型(meanflow)的训练稳定性问题,将模型推理步数由100步蒸馏到8步,显著提升推理速度的同时保证了模型原有的效果。
03 开源生态:PromptEnhancer与开发者社区
腾讯此次还开源了中英文文本改写模型PromptEnhancer,用于优化用户文本指令。这是业内首个系统化、工业级的中英文改写模型,能够对用户的文本指令进行结构化优化,丰富视觉表达。混元图像2.1是一款全面开源的基座模型,不仅具备业界领先的生成效果,还能够灵活适配社区多样化的衍生需求。目前,混元图像2.1的模型权重和代码已在Hugging Face、GitHub等开源社区正式发布。开源后,混元图像2.1在Hugging Face模型热度榜上迅速攀升,一跃成为全球第三热门模型。在该榜单前八名中,腾讯混元模型家族包揽三席。
04 多模态未来:文本、音频与视频的融合
腾讯混元方面还透露,“混元原生多模态图像生成模型,也在路上了。”这预示着腾讯将在未来整合更多模态的信息,如文本、音频、视频等,从而实现更复杂的图像生成任务。多模态模型的出现,有望极大地拓展图像生成技术的应用场景,如在电影制作、游戏开发、虚拟现实等领域。这类融合AI能力的图像生成模型,可能成为未来数字内容创作的标配。随着技术的不断成熟,AI将在图像生成领域发挥越来越重要的作用,推动数字内容创作的变革。
05 市场竞争:中美科技巨头的AI竞赛
随着AI生图技术的不断发展,市场竞争也日趋激烈。谷歌、OpenAI等科技巨头纷纷推出了各自的图像生成模型,不断刷新着技术上限。腾讯混元此次发布的混元图像2.1,无疑增强了其在这一领域的竞争力。而原生多模态图像生成模型的推出,更是腾讯混元对未来技术趋势的积极布局。从评估结果来看,腾讯混元图像模型2.1在语义对齐上目前达到了开源模型中最优的效果,并且非常接近闭源商业模型(GPT-Image)的效果。同时,其图像生成质量与闭源商业模型Seedream3.0相当,相较于同类开源模型Qwen-Image略优。
随着AI生图技术的持续演进,腾讯混元图像2.1的开源发布无疑将推动整个行业的发展。开源后,模型在Hugging Face热度榜上一跃升至全球第三。开发者可以基于这一强大基础模型开展研究,开发各类衍生模型与插件,共同推动AI图像生成技术走向更加开放、创新的未来。