HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

RewardDance : Échelonnage de la récompense dans la génération visuelle

RewardDance : Échelonnage de la récompense dans la génération visuelle

Résumé

Les modèles de récompense (Reward Models, RMs) sont essentiels pour améliorer les modèles de génération par apprentissage par renforcement (RL), mais le paradigme d’extension des RMs dans le domaine de la génération visuelle reste largement exploré. Cette situation s’explique principalement par des limites fondamentales des approches existantes : les RMs basés sur CLIP souffrent de contraintes architecturales et de modalités d’entrée, tandis que les pertes couramment utilisées selon le modèle de Bradley-Terry sont fondamentalement mal alignées avec le mécanisme de prédiction du prochain jeton des modèles vision-langage (VLM), ce qui entrave une extension efficace. Plus critique encore, le processus d’optimisation RLHF est affecté par le problème de « hacking de récompense », où les modèles exploitent des failles du signal de récompense sans améliorer réellement la qualité. Pour relever ces défis, nous proposons RewardDance, un cadre évolutif de modélisation de récompense qui surmonte ces obstacles grâce à un nouveau paradigme de récompense générative. En reformulant le score de récompense comme la probabilité que le modèle prédise un jeton « oui », indiquant qu’une image générée excède une image de référence selon des critères spécifiques, RewardDance aligne intrinsèquement les objectifs de récompense avec l’architecture des VLM. Cet alignement permet une extension à deux niveaux : (1) Extension du modèle : mise à l’échelle systématique des RMs jusqu’à 26 milliards de paramètres ; (2) Extension du contexte : intégration d’instructions spécifiques à la tâche, d’exemples de référence et de raisonnement en chaîne (chain-of-thought, CoT). Des expérimentations approfondies montrent que RewardDance surpassent significativement les méthodes de pointe dans les tâches de génération image à partir de texte, texte à vidéo, et image à vidéo. De façon cruciale, nous résolvons le problème persistant du « hacking de récompense » : nos RMs à grande échelle présentent et maintiennent une forte variance de récompense pendant le fine-tuning par RL, démontrant ainsi leur résistance à l’exploitation et leur capacité à produire des sorties diversifiées et de haute qualité. Ce résultat atténue considérablement le problème de « collapsus des modes » qui affecte fréquemment les modèles plus petits.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RewardDance : Échelonnage de la récompense dans la génération visuelle | Articles de recherche | HyperAI