HyperAIHyperAI

Command Palette

Search for a command to run...

WeThink : Vers un raisonnement vision-langage généraliste grâce à l'apprentissage par renforcement

Résumé

S'appuyant sur le succès des modèles de raisonnement basés sur le texte, tels que DeepSeek-R1, l'extension de ces capacités au raisonnement multimodal s'annonce prometteuse. Bien que des travaux récents aient tenté d'adapter les paradigmes d'apprentissage par renforcement (RL) du style DeepSeek-R1 aux modèles linguistiques à grande échelle multimodaux (MLLM), en se concentrant sur des tâches spécifiques comme les mathématiques ou la perception visuelle, une question cruciale demeure : comment parvenir à un raisonnement visuel-langagier généraliste par RL ? Pour répondre à ce défi, nous avons mené trois efforts clés : (1) une nouvelle pipeline de synthèse de questions-réponses multimodales évolutives, capable d’engendrer de manière autonome des paires question-réponse contextualisées et centrées sur le raisonnement directement à partir d’images données ; (2) le jeu de données open source WeThink, comprenant plus de 120 000 paires QA multimodales avec des chemins de raisonnement annotés, constitué à partir de 18 sources de données diverses et couvrant plusieurs domaines de questions ; (3) une exploration approfondie du RL sur notre jeu de données, intégrant un mécanisme de récompense hybride combinant une vérification basée sur des règles et une évaluation fondée sur un modèle, afin d’optimiser l’efficacité de l’entraînement par RL dans divers domaines de tâches. Sur 14 benchmarks diversifiés de MLLM, nous démontrons que notre jeu de données WeThink améliore significativement les performances, que ce soit en raisonnement mathématique ou dans des tâches multimodales générales. En outre, nous montrons que notre pipeline automatisée de génération de données peut continuellement enrichir la diversité des données, conduisant ainsi à une amélioration continue des performances des modèles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp