Command Palette

Search for a command to run...

8 天前

逐步采样,分块优化:面向文本到图像生成的分块级GRPO

Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

逐步采样,分块优化:面向文本到图像生成的分块级GRPO

摘要

基于流匹配的文本到图像(T2I)生成方法中,群体相对策略优化(Group Relative Policy Optimization, GRPO)展现出强劲潜力,但仍面临两大关键挑战:优势估计不准确,以及忽视生成过程中的时间动态特性。本文提出,将优化范式从步骤级别转向块级别,能够有效缓解上述问题。基于这一思路,我们提出了首个基于块级别的GRPO方法——Chunk-GRPO,用于T2I生成任务。其核心思想是将连续的生成步骤划分为具有内在时间动态一致性的“块”(chunks),并在块级别上进行策略优化。此外,我们还引入一种可选的加权采样策略,以进一步提升生成性能。大量实验结果表明,Chunk-GRPO在偏好对齐与图像质量方面均取得更优表现,充分彰显了块级别优化在GRPO类方法中的巨大潜力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供