近日,腾讯在人工智能绘画技术领域取得重要突破,正式推出全新 AI 绘画微调技术方案。该方案通过创新技术路径,有效解决当前 AI 图像生成领域的关键痛点,大幅提升生成图像的真实感与美学评分。经实测,该微调技术仅需 32 块 H20 显卡,在 10 分钟内即可完成训练并实现显著收敛效果,人工评估得分较此前提升 300% 以上,为 AI 绘画技术的工业化应用与体验优化提供重要支撑。
当前,扩散模型是 AI 图像生成领域的主流技术架构,其通过奖励机制对图像质量进行优化,但在实际应用中仍面临两大核心挑战。一方面,模型优化步骤存在局限性,易产生 “奖励作弊” 问题 —— 模型为满足奖励规则获取高分,可能生成表面符合评分标准、但实际画质与细节表现不佳的图像,难以满足用户对高质量图像的需求;另一方面,奖励模型采用离线调整模式,灵活性不足,无法根据用户实时需求进行动态优化,制约了 AI 绘画技术在多样化场景下的应用拓展。
针对上述行业痛点,腾讯技术团队经过深入研发,提出两项创新性技术解决方案。其一为 “Direct-Align” 技术,该技术通过预先注入噪声构建优化基础,使模型能够从扩散过程中的任意时间点精准恢复原始图像。这一设计有效减少早期反向传播过程中的梯度爆炸现象,打破传统模型仅能在扩散后期进行优化的限制,实现整个扩散流程的全阶段优化,进一步保障图像生成的稳定性与细节精度。
其二为 “语义相对偏好优化(SRPO)” 技术。该技术创新性地将传统奖励信号转化为可通过文本控制的动态信号,通过引入正面提示词与负面提示词,无需额外训练数据即可灵活调整生成图像的风格与效果。用户仅需在提示词中添加简单控制短语,即可快速实现亮度调节、风格转换等个性化需求,显著提升 AI 绘画技术的易用性与场景适配能力。
为验证技术实效,腾讯团队基于 FLUX.1-dev 模型开展专项测试,测试覆盖 3200 个不同场景提示词。结果显示,经 SRPO 技术训练后的模型,在真实感维度的优秀率从 8.2% 提升至 38.9%,美学质量优秀率从 9.8% 提升至 40.5%;与现有技术方案相比,该技术在保障高美学品质的同时,进一步优化图像纹理的自然度,技术优势显著。