il y a 7 jours

Open Vision Reasoner : Transfert du Comportement Cognitif Linguistique pour la Raisonnement Visuel

Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel

Voir les détails de l'article View Code

Open Vision Reasoner : Transfert du Comportement Cognitif Linguistique pour la Raisonnement Visuel

Résumé

La remarquable capacité de raisonnement des grands modèles linguistiques (LLMs) découle des comportements cognitifs qui émergent grâce au renforcement par des récompenses vérifiables. Cette étude explore comment transférer ce principe aux grands modèles multimodaux (MLLMs) afin de débloquer un raisonnement visuel avancé. Nous présentons un paradigme en deux étapes basé sur Qwen2.5-VL-7B : une fine-tuning linguistique massive à froid, suivie d'un apprentissage par renforcement (RL) multimodal s'étendant sur près de 1 000 étapes, surpassant ainsi toutes les tentatives précédentes issues du domaine open source en termes d'échelle. Ce travail pionnier révèle trois insights fondamentaux : 1) Le transfert de comportement émerge de manière surprenante tôt lors du démarrage à froid grâce aux images mentales linguistiques. 2) Le démarrage à froid mémorise largement les comportements visuels, tandis que le RL discrimine et amplifie les motifs efficaces. 3) Le transfert favorise stratégiquement les comportements à haute utilité, tels que la réflexion visuelle. Notre modèle résultant, l'Open-Vision-Reasoner (OVR), atteint des performances de pointe sur une série de benchmarks de raisonnement, notamment 95,3 % sur MATH500, 51,8 % sur MathVision et 54,6 % sur MathVerse. Nous mettons notre modèle, nos données et la dynamique de notre entraînement à disposition pour accélérer le développement de raisonneurs multimodaux plus performants et alignés sur les comportements.