腾讯混元推出多模态图像生成模型，开启2K高清AI生图新时代_资讯

腾讯混元推出多模态图像生成模型，开启2K高清AI生图新时代

作者：安安

 时间：2025-09-16 14:49:28

腾讯混元模型发布(1) 腾讯混元发布全新升级的“混元图像2.1”模型，支持千字描述与原生2K高清图像生成，同时宣布正在开发原生多模态模型，推动AI图像生成进入新阶段。

2025年9月9日，腾讯混元正式发布了其最新的生图模型—混元图像2.1（HunyuanImage 2.1）。此次更新不仅带来了技术上的显著革新，也预示着腾讯在人工智能图像生成领域迈出了坚实的一步。新模型支持最长1000个tokens的提示词和原生2K分辨率图像生成，这意味着用户可以更加详细、精准地描述他们想要的图像，并获得更高质量的视觉输出。

01 技术升级：更长提示词与更高清晰度

混元图像2.1版本展现出腾讯在AI图像生成领域的技术实力。新模型支持长达1000个tokens的提示词输入，使用户能够提供极其详细的内容描述。相比之前版本，2.1版在图像生成质量上有明显提升，支持原生2K高清生图，在当前主流图像生成模型中处于领先地位。更高的分辨率意味着更丰富的细节表现，为设计师、艺术家等专业用户提供了更大的创作空间。无论是生成高保真的创意插画，还是制作包含中英文宣传语的海报和包装设计，混元图像2.1都能提供高质量的支持。

02 架构创新：双文本编码器与高效推理

混元图像2.1在模型架构上进行了多项创新。它配备了双文本编码器：一个MLLM模块用于提升图文对齐能力，另一个ByT5模型则增强了文字生成表现力。为大幅降低计算量、提升训练和推理效率，模型采用了32倍超高压缩倍率的VAE，并使用dinov2对齐和repa loss来降低训练难度。这使得模型能够高效原生生成2K图。值得一提的是，混元图像2.1在17B参数量级的模型上解决了平均流模型（meanflow）的训练稳定性问题，将模型推理步数由100步蒸馏到8步，显著提升推理速度的同时保证了模型原有的效果。

03 开源生态：PromptEnhancer与开发者社区

腾讯此次还开源了中英文文本改写模型PromptEnhancer，用于优化用户文本指令。这是业内首个系统化、工业级的中英文改写模型，能够对用户的文本指令进行结构化优化，丰富视觉表达。混元图像2.1是一款全面开源的基座模型，不仅具备业界领先的生成效果，还能够灵活适配社区多样化的衍生需求。目前，混元图像2.1的模型权重和代码已在Hugging Face、GitHub等开源社区正式发布。开源后，混元图像2.1在Hugging Face模型热度榜上迅速攀升，一跃成为全球第三热门模型。在该榜单前八名中，腾讯混元模型家族包揽三席。

04 多模态未来：文本、音频与视频的融合

腾讯混元方面还透露，“混元原生多模态图像生成模型，也在路上了。”这预示着腾讯将在未来整合更多模态的信息，如文本、音频、视频等，从而实现更复杂的图像生成任务。多模态模型的出现，有望极大地拓展图像生成技术的应用场景，如在电影制作、游戏开发、虚拟现实等领域。这类融合AI能力的图像生成模型，可能成为未来数字内容创作的标配。随着技术的不断成熟，AI将在图像生成领域发挥越来越重要的作用，推动数字内容创作的变革。

05 市场竞争：中美科技巨头的AI竞赛

随着AI生图技术的不断发展，市场竞争也日趋激烈。谷歌、OpenAI等科技巨头纷纷推出了各自的图像生成模型，不断刷新着技术上限。腾讯混元此次发布的混元图像2.1，无疑增强了其在这一领域的竞争力。而原生多模态图像生成模型的推出，更是腾讯混元对未来技术趋势的积极布局。从评估结果来看，腾讯混元图像模型2.1在语义对齐上目前达到了开源模型中最优的效果，并且非常接近闭源商业模型（GPT-Image）的效果。同时，其图像生成质量与闭源商业模型Seedream3.0相当，相较于同类开源模型Qwen-Image略优。

随着AI生图技术的持续演进，腾讯混元图像2.1的开源发布无疑将推动整个行业的发展。开源后，模型在Hugging Face热度榜上一跃升至全球第三。开发者可以基于这一强大基础模型开展研究，开发各类衍生模型与插件，共同推动AI图像生成技术走向更加开放、创新的未来。

分享到：

谷歌推出 Gemini 3 Deep Think 模式，AI 推理能力显著提升

 2025-12-09
全球首个“纯AMD”大模型ZAYA1发布！14T tokens训练，性能对标Qwen3

 2025-11-26
马斯克宣布 xAI Grok2 下周开源

 2025-08-08
小红书自动化工具xiaohongshu-mcp正式上线,人工智能技术赋能内容创作新生态!

 2025-09-02
智源发布悟界Emu3.5：多模态世界模型实现跨场景具身操作

 2025-11-03
智能座舱进入深度思考时代！荣威M7 DMH首搭豆包大模型上市

 2025-09-19

热门标签

谷歌推出 Gemini 3 Deep Think 模式，AI 推理能力显著提升

全球首个“纯AMD”大模型ZAYA1发布！14T tokens训练，性能对标Qwen3

马斯克宣布 xAI Grok2 下周开源

小红书自动化工具xiaohongshu-mcp正式上线,人工智能技术赋能内容创作新生态!

智源发布悟界Emu3.5：多模态世界模型实现跨场景具身操作

智能座舱进入深度思考时代！荣威M7 DMH首搭豆包大模型上市

Trae2.0重磅发布—一个具备上下文工程能力的系统

AI 提示词管理工具 AI Gist 正式上线

物流机器人时代要来了？！

字节跳动 AI 编程工具 TRAE 2.0 即将发布，新增语音交互功能

AI导游重塑文旅及物流消费体验

魔镜洞察

拜特科技

奇墨科技

致远互联

滴普科技

关于Tech技术加

快速导航

热门推荐

关注我们

微信在线客服

电话： +86 15618587198