Command Palette
Search for a command to run...
Échantillonnage par étape, optimisation par morceau : GRPO au niveau des morceaux pour la génération d'images à partir de texte
Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

Résumé
Le Group Relative Policy Optimization (GRPO) a démontré un fort potentiel pour la génération d’images à partir de texte (T2I) basée sur le matching de flux, mais il est confronté à deux limitations majeures : une attribution inexacte de l’avantage et une négligence des dynamiques temporelles de génération. Dans ce travail, nous soutenons qu’un changement de paradigme d’optimisation, passant du niveau pas au niveau « chunk », permettrait efficacement de surmonter ces problèmes. À partir de cette idée, nous proposons Chunk-GRPO, la première approche fondée sur le GRPO au niveau « chunk » pour la génération T2I. L’idée principale consiste à regrouper des étapes consécutives en « chunks » cohérents, capables de capturer les dynamiques temporelles intrinsèques du matching de flux, et à optimiser les politiques au niveau de ces « chunks ». Par ailleurs, nous introduisons une stratégie de tirage pondéré optionnelle afin d’améliorer davantage les performances. Des expériences étendues montrent que Chunk-GRPO obtient des résultats supérieurs en termes d’alignement des préférences et de qualité d’image, mettant en évidence le potentiel du paradigme d’optimisation au niveau « chunk » pour les méthodes basées sur le GRPO.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.