HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 8 jours

Échantillonnage par étape, optimisation par morceau : GRPO au niveau des morceaux pour la génération d'images à partir de texte

Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

Échantillonnage par étape, optimisation par morceau : GRPO au niveau des morceaux pour la génération d'images à partir de texte

Résumé

Le Group Relative Policy Optimization (GRPO) a démontré un fort potentiel pour la génération d’images à partir de texte (T2I) basée sur le matching de flux, mais il est confronté à deux limitations majeures : une attribution inexacte de l’avantage et une négligence des dynamiques temporelles de génération. Dans ce travail, nous soutenons qu’un changement de paradigme d’optimisation, passant du niveau pas au niveau « chunk », permettrait efficacement de surmonter ces problèmes. À partir de cette idée, nous proposons Chunk-GRPO, la première approche fondée sur le GRPO au niveau « chunk » pour la génération T2I. L’idée principale consiste à regrouper des étapes consécutives en « chunks » cohérents, capables de capturer les dynamiques temporelles intrinsèques du matching de flux, et à optimiser les politiques au niveau de ces « chunks ». Par ailleurs, nous introduisons une stratégie de tirage pondéré optionnelle afin d’améliorer davantage les performances. Des expériences étendues montrent que Chunk-GRPO obtient des résultats supérieurs en termes d’alignement des préférences et de qualité d’image, mettant en évidence le potentiel du paradigme d’optimisation au niveau « chunk » pour les méthodes basées sur le GRPO.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Échantillonnage par étape, optimisation par morceau : GRPO au niveau des morceaux pour la génération d'images à partir de texte | Articles de recherche | HyperAI