HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

GRPO-CARE : Apprentissage par renforcement avec prise en compte de la cohérence pour le raisonnement multimodal

GRPO-CARE : Apprentissage par renforcement avec prise en compte de la cohérence pour le raisonnement multimodal

Résumé

Les approches récentes d'apprentissage par renforcement, telles que le GRPO supervisé par les résultats, ont progressé dans la raisonnement en chaîne de pensée (Chain-of-Thought) des grands modèles de langage (LLMs), mais leur adaptation aux grands modèles de langage multimodaux (MLLMs) reste inexplorée. Pour remédier au manque d'évaluation rigoureuse des méthodes post-entraînement des MLLMs, nous introduisons SEED-Bench-R1, un benchmark comprenant des vidéos complexes du monde réel nécessitant une perception et un raisonnement équilibrés. Il offre un ensemble d'entraînement important et évalue la généralisation à travers trois défis croissants : des scénarios in-distribution, cross-environment et cross-environment-task. En utilisant SEED-Bench-R1, nous constatons que le GRPO standard, bien qu'il améliore la précision des réponses, réduit souvent la cohérence logique entre les étapes de raisonnement et les réponses, avec seulement un taux de cohérence de 57,9 %. Ceci découle du fait que les signaux de récompense se concentrent uniquement sur les réponses finales, encourageant les raccourcis et limitant l'exploration grâce à des pénalités strictes de KL. Pour résoudre ce problème, nous proposons GRPO-CARE, un cadre d'apprentissage par renforcement (RL) sensible à la cohérence qui optimise à la fois la justesse des réponses et la cohérence du raisonnement sans supervision explicite. GRPO-CARE introduit une récompense à deux niveaux : (1) une récompense de base pour la justesse des réponses et (2) un bonus de cohérence adaptatif calculé en comparant la probabilité du raisonnement vers la réponse du modèle (via un modèle de référence évoluant lentement) avec celle des pairs du groupe. Ce mécanisme dual amplifie les récompenses pour les chemins de raisonnement qui sont à la fois corrects et logiquement cohérents. En remplaçant les pénalités de KL par ce bonus adaptatif, GRPO-CARE surpasse le GRPO standard sur SEED-Bench-R1, réalisant une amélioration de 6,7 % sur le niveau d'évaluation le plus difficile et une augmentation de 24,5 % en termes de cohérence. Il montre également une forte transférabilité, améliorant les performances du modèle sur divers benchmarks d'interprétation vidéo. Notre travail contribue à l'élaboration d'un benchmark conçu systématiquement et d'un cadre post-entraînement généralisable, favorisant ainsi le développement de MLLMs plus interprétables et robustes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GRPO-CARE : Apprentissage par renforcement avec prise en compte de la cohérence pour le raisonnement multimodal | Articles de recherche | HyperAI