Command Palette
Search for a command to run...
Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable
Yibin Wang Zhimin Li Yuhang Zang Yujie Zhou Jiazi Bu Chunyu Wang Qinglin Lu Cheng Jin Jiaqi Wang

Résumé
Les progrès récents mettent en évidence l'importance des méthodes d'apprentissage par renforcement basées sur GRPO ainsi que des benchmarks pour améliorer la génération d’images à partir de texte (T2I). Toutefois, les méthodes actuelles utilisant des modèles de récompense ponctuels (RM) pour évaluer les images générées sont sujettes au « hacking de récompense ». Nous montrons que ce phénomène survient lorsque de minuscules différences de score entre images sont amplifiées après normalisation, entraînant des avantages illusoires qui poussent le modèle à sur-optimiser pour des gains triviaux, ce qui finit par destabiliser le processus de génération d’images. Pour remédier à ce problème, nous proposons Pref-GRPO, une méthode de GRPO fondée sur les préférences appariées, qui repense l’objectif d’optimisation de la maximisation du score vers l’ajustement des préférences, garantissant ainsi une formation plus stable. Dans Pref-GRPO, les images sont comparées par paires au sein de chaque groupe à l’aide d’un modèle de préférence (preference RM), et le taux de victoire est utilisé comme signal de récompense. Des expériences étendues démontrent que Pref-GRPO permet de distinguer des différences subtiles dans la qualité des images, offre des avantages plus stables et atténue efficacement le hacking de récompense. En outre, les benchmarks T2I existants sont limités par des critères d’évaluation trop grossiers, ce qui entrave une évaluation complète des modèles. Pour pallier ce défaut, nous introduisons UniGenBench, un benchmark unifié pour la génération T2I comprenant 600 prompts répartis sur 5 thèmes principaux et 20 sous-thèmes. Il évalue la cohérence sémantique à travers 10 critères principaux et 27 sous-critères, en s’appuyant sur des modèles linguistiques multimodaux (MLLM) pour la construction et l’évaluation du benchmark. Nos benchmarks révèlent les forces et faiblesses des modèles T2I open-source et closed-source, tout en validant l’efficacité de Pref-GRPO.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.