HyperAIHyperAI

Command Palette

Search for a command to run...

Open Vision Reasoner : Transfert du Comportement Cognitif Linguistique pour la Raisonnement Visuel

Résumé

La remarquable capacité de raisonnement des grands modèles linguistiques (LLMs) découle des comportements cognitifs qui émergent grâce au renforcement par des récompenses vérifiables. Cette étude explore comment transférer ce principe aux grands modèles multimodaux (MLLMs) afin de débloquer un raisonnement visuel avancé. Nous présentons un paradigme en deux étapes basé sur Qwen2.5-VL-7B : une fine-tuning linguistique massive à froid, suivie d'un apprentissage par renforcement (RL) multimodal s'étendant sur près de 1 000 étapes, surpassant ainsi toutes les tentatives précédentes issues du domaine open source en termes d'échelle. Ce travail pionnier révèle trois insights fondamentaux : 1) Le transfert de comportement émerge de manière surprenante tôt lors du démarrage à froid grâce aux images mentales linguistiques. 2) Le démarrage à froid mémorise largement les comportements visuels, tandis que le RL discrimine et amplifie les motifs efficaces. 3) Le transfert favorise stratégiquement les comportements à haute utilité, tels que la réflexion visuelle. Notre modèle résultant, l'Open-Vision-Reasoner (OVR), atteint des performances de pointe sur une série de benchmarks de raisonnement, notamment 95,3 % sur MATH500, 51,8 % sur MathVision et 54,6 % sur MathVerse. Nous mettons notre modèle, nos données et la dynamique de notre entraînement à disposition pour accélérer le développement de raisonneurs multimodaux plus performants et alignés sur les comportements.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp