HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 8 jours

RewardMap : Affronter les récompenses rares dans le raisonnement visuel fin grâce à l'apprentissage par renforcement multi-étapes

Sicheng Feng Kaiwen Tuo Song Wang Lingdong Kong Jianke Zhu Huan Wang

RewardMap : Affronter les récompenses rares dans le raisonnement visuel fin grâce à l'apprentissage par renforcement multi-étapes

Résumé

Le raisonnement visuel à fort grain reste un défi fondamental pour les modèles linguistiques à grande échelle multimodaux (MLLM). Le récent dataset ReasonMap met en évidence ce fossé en montrant que même les MLLM avancés peinent à effectuer un raisonnement spatial dans des contextes structurés et riches en information, tels que les plans de transports en commun, une tâche d'une importance pratique et scientifique évidente. Toutefois, l'apprentissage par renforcement (RL) classique sur ces tâches est freiné par des récompenses rares et une optimisation instable. Pour y remédier, nous proposons tout d'abord ReasonMap-Plus, un jeu de données étendu qui introduit des signaux de récompense denses via des tâches de question-réponse visuelle (VQA), permettant ainsi une formation efficace en « cold-start » des compétences de compréhension visuelle fine. Ensuite, nous introduisons RewardMap, un cadre de RL à plusieurs étapes conçu pour améliorer à la fois la compréhension visuelle et les capacités de raisonnement des MLLM. RewardMap repose sur deux innovations clés. Premièrement, nous proposons une conception de récompense sensible au niveau de difficulté, intégrant des récompenses détaillées, qui attaque directement le problème des récompenses rares tout en offrant une supervision plus riche. Deuxièmement, nous proposons un schéma de RL à plusieurs étapes qui initie l'apprentissage à partir de tâches simples de perception vers des tâches complexes de raisonnement, offrant ainsi une stratégie de « cold-start » plus efficace que le fine-tuning supervisé (SFT) classique. Des expériences menées sur ReasonMap et ReasonMap-Plus démontrent que chaque composant de RewardMap contribue de manière cohérente à l'amélioration des performances, et que leur combinaison produit les meilleurs résultats. En outre, les modèles entraînés avec RewardMap atteignent une amélioration moyenne de 3,47 % sur six benchmarks couvrant le raisonnement spatial, le raisonnement visuel à fort grain et des tâches générales au-delà des plans de transports en commun, soulignant ainsi une capacité renforcée à la compréhension visuelle et au raisonnement.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp