HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 5 jours

PaCo-RL : Vers une amélioration de l'apprentissage par renforcement pour la génération d'images cohérentes grâce à un modèle de récompense par paires

Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

PaCo-RL : Vers une amélioration de l'apprentissage par renforcement pour la génération d'images cohérentes grâce à un modèle de récompense par paires

Résumé

La génération d’images cohérentes exige la préservation fidèle des identités, des styles et de la cohérence logique à travers plusieurs images, ce qui est essentiel pour des applications telles que le récit visuel ou la conception de personnages. Les approches d’apprentissage supervisé peinent à relever ce défi en raison du manque de jeux de données à grande échelle capturant la cohérence visuelle, ainsi que de la complexité inhérente à la modélisation des préférences perceptives humaines. Dans ce papier, nous soutenons qu’apprentissage par renforcement (RL) constitue une voie prometteuse, permettant aux modèles d’apprendre des critères visuels complexes et subjectifs de manière entièrement dépourvue de données. Pour réaliser cet objectif, nous introduisons PaCo-RL, un cadre complet combinant un modèle de récompense spécialisé pour la cohérence et un algorithme de RL efficace. Le premier composant, PaCo-Reward, est un évaluateur de cohérence par paires entraîné sur un grand jeu de données construit par appariement automatique de sous-images. Il évalue la cohérence via un mécanisme de notation génératif et autoregressif, amélioré par des instructions contextuelles et des raisonnements par chaîne de pensée (CoT). Le second composant, PaCo-GRPO, repose sur une stratégie d’optimisation novatrice découplée de la résolution, permettant de réduire significativement le coût du RL, associée à un mécanisme d’agrégation multi-récompense à log-tampon, garantissant une optimisation des récompenses équilibrée et stable. Des expérimentations étendues sur deux tâches représentatives démontrent que PaCo-Reward améliore notablement l’alignement avec les perceptions humaines de la cohérence visuelle, tandis que PaCo-GRPO atteint des performances de cohérence de pointe, avec une efficacité et une stabilité d’entraînement améliorées. Ensemble, ces résultats mettent en évidence le potentiel de PaCo-RL en tant que solution pratique et évolutif pour la génération d’images cohérentes. La page du projet est disponible à l’adresse suivante : https://x-gengroup.github.io/HomePage_PaCo-RL/.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp