WeThink : Vers un raisonnement vision-langage généraliste grâce à l'apprentissage par renforcement

S'appuyant sur le succès des modèles de raisonnement basés sur le texte, tels que DeepSeek-R1, l'extension de ces capacités au raisonnement multimodal s'annonce prometteuse. Bien que des travaux récents aient tenté d'adapter les paradigmes d'apprentissage par renforcement (RL) du style DeepSeek-R1 aux modèles linguistiques à grande échelle multimodaux (MLLM), en se concentrant sur des tâches spécifiques comme les mathématiques ou la perception visuelle, une question cruciale demeure : comment parvenir à un raisonnement visuel-langagier généraliste par RL ? Pour répondre à ce défi, nous avons mené trois efforts clés : (1) une nouvelle pipeline de synthèse de questions-réponses multimodales évolutives, capable d’engendrer de manière autonome des paires question-réponse contextualisées et centrées sur le raisonnement directement à partir d’images données ; (2) le jeu de données open source WeThink, comprenant plus de 120 000 paires QA multimodales avec des chemins de raisonnement annotés, constitué à partir de 18 sources de données diverses et couvrant plusieurs domaines de questions ; (3) une exploration approfondie du RL sur notre jeu de données, intégrant un mécanisme de récompense hybride combinant une vérification basée sur des règles et une évaluation fondée sur un modèle, afin d’optimiser l’efficacité de l’entraînement par RL dans divers domaines de tâches. Sur 14 benchmarks diversifiés de MLLM, nous démontrons que notre jeu de données WeThink améliore significativement les performances, que ce soit en raisonnement mathématique ou dans des tâches multimodales générales. En outre, nous montrons que notre pipeline automatisée de génération de données peut continuellement enrichir la diversité des données, conduisant ainsi à une amélioration continue des performances des modèles.