news 2026/4/23 20:07:25

Pref-GRPO:通过成对比较实现稳定文本图像生成强化学习的新方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pref-GRPO:通过成对比较实现稳定文本图像生成强化学习的新方法

概述

本文为文本到图像(T2I)模型提出了一种新的强化学习方法。

传统的 GRPO(组相对策略优化)方法使用基于分数的奖励模型来评估生成图像的质量,并通过对组内分数进行归一化来更新衡量标准。
然而,这种方法容易出现一个被称为 "奖励黑客 "的问题,即分数增加,图像质量却下降。

作者指出,这是 "虚幻优势 "造成的。
当生成图像之间的分数差异非常小,而归一化会过度强调差异时,就会出现这种情况。

为了解决这个问题,研究提出了一种名为 Pref-GRPO 的新方法。
这是一种基于图像对之间的相对偏好(成对偏好)而不是绝对分数来更新测量结果的机制。

此外,作者还为模型评估设计了一种名为 "UniGenBench "的新基准,可从细粒度维度评估 T2I 模型的性能。
这项工作的意义在于,它克服了传统方法的局限性,能够以更稳定的方式学习图像生成,并符合人类的偏好。

建议的方法

Pref-GRPO 的核心思想是将学习目标从传统的奖励分数最大化转移到 “相对偏好匹配”。

具体来说,针对给定的提示生成多张图像,并进行配对比较。

使用成对奖励模型(PPRM)来确定哪张图片更受欢迎,并将胜率作为奖励信号。

每张图片的胜率在组内进行归一化处理,并用于更新衡量标准。

这种设计有三个优点。

首先,胜出率的使用增加了奖励的方差,可以更清楚地区分质量好和质量差的图像。

其次,由于它是基于相对排名而不是绝对分数差异,因此对奖励噪音具有很强的抗干扰能力,并减少了奖励黑客的出现。

第三,它能提供更自然、更忠实的奖励信号,因为它反映了人类的判断本质上是基于相对比较这一事实。

此外,在评估方面,作者提出的 UniGenBench 甚至可以对文本理解和逻辑推理等细节维度进行评估,从而可以对模型的优缺点进行详细分析。

实验

在实验中,Pref-GRPO 首先与现有的奖励最大化方法(HPS、CLIP、UnifiedReward 等)进行了比较。

实验使用 Flux.1-dev 作为基础模型,并使用 UniGenBench 进行评估。

结果显示,Pref-GRPO 的总分提高了约 6 分,尤其是在逻辑推理和文本绘制方面。

此外,传统方法会出现 "奖励黑客 "现象,即在训练过程中奖励分数增加,图像质量却下降,而 Pref-GRPO 则有效地抑制了这一现象。

此外,对生成的图像进行定性比较后发现,现有方法会出现过度饱和等不自然的倾向,而 Pref-GRPO 则能生成更自然、更稳定的表达。

此外,在外部基准(GenEval 和 T2I-CompBench)中也观察到了稳定的性能改进。

使用 UniGenBench 进行的广泛模型比较显示,GPT-4o 和 Imagen-4.0-Ultra 等封闭源模型表现良好,而 Qwen-Image 和 HiDream 等开放源模型也取得了快速进步。
总之,可以得出结论,这种方法是显著提高 T2I 强化学习稳定性和实用性的有效方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:28:35

免费插画网站还能当灵感库?看这些平台如何激活你的创意

你是否只把免费插画网站当作一个需要时才去“索取”的素材仓库?当灵感枯竭、创意僵化时,你是否还在苦苦等待那不知何时才会降临的“灵光一现”?是时候重新认识这些宝藏平台了。《2025年创意工作者灵感来源与工作效能关联性研究》通过对上千名…

作者头像 李华
网站建设 2026/4/23 14:12:53

告别素材撞车!这些网站的风格,正被前沿设计师悄悄收藏

你是否也厌倦了这样的场景:精心设计的海报、PPT或网页,却因为使用了某款“网红”插画素材,而在茫茫信息流中与其他作品“撞衫”,瞬间失去了个性和辨识度?在视觉同质化日益严重的今天,独特的风格已成为设计作…

作者头像 李华
网站建设 2026/4/23 11:26:55

百度网盘下载加速神器:告别龟速,轻松实现高速下载

百度网盘下载加速神器:告别龟速,轻松实现高速下载 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的下载速度而烦恼吗?当重要…

作者头像 李华
网站建设 2026/4/23 15:34:06

《你真的了解C++吗》No.011:inline 的多重身份——不仅仅是建议

《你真的了解C吗》No.011:inline 的多重身份——不仅仅是建议 导言:被性能掩盖的真实面貌 在大多数初级教程中,inline 被描述为一种编译器优化建议:它告诉编译器,将函数调用处直接替换为函数体,从而减少函数…

作者头像 李华
网站建设 2026/4/23 14:07:11

百度网盘解析神器:5分钟学会高速下载技巧,轻松突破限制!

百度网盘解析神器:5分钟学会高速下载技巧,轻松突破限制! 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的下载速度而烦恼吗…

作者头像 李华
网站建设 2026/4/23 0:20:18

NVIDIA Profile Inspector:显卡性能终极调优神器深度解析

NVIDIA Profile Inspector:显卡性能终极调优神器深度解析 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 还在为高价显卡无法发挥全部性能而烦恼吗?你的显卡可能正在"偷懒&…

作者头像 李华