HyperAI
il y a 8 jours

Apprentissage par renforcement semi-off-policy pour le raisonnement lent vision-langage

Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen
Apprentissage par renforcement semi-off-policy pour le raisonnement lent vision-langage
Résumé

L'amélioration des grands modèles vision-langage (LVLMs) par un raisonnement lent visuel est essentielle pour résoudre des tâches multimodales complexes. Cependant, comme les LVLMs sont principalement entraînés sur l'alignement vision-langage, il est difficile d'appliquer l'apprentissage par renforcement (RL) en politique directe (on-policy RL) pour développer une capacité de raisonnement lent, car l'espace de simulation est limité par leurs capacités initiales. Le RL hors politique (off-policy RL) offre une solution pour dépasser la politique actuelle, mais la distillation directe des trajectoires à partir de modèles externes peut entraîner des hallucinations visuelles en raison des différences dans les capacités de perception visuelle entre les modèles. Pour résoudre ces problèmes, cet article propose SOPHIA, un RL semi-hors politique simple et évolutif pour le raisonnement lent vision-langage. SOPHIA construit un modèle de comportement semi-hors politique en combinant la compréhension visuelle en politique directe d'un LVLM entraînable avec le raisonnement lent hors politique d'un modèle de langage, attribue des récompenses basées sur les résultats au raisonnement, et propage en arrière les récompenses visuelles. Ainsi, le LVLM apprend la capacité de raisonnement lent à partir des trajectoires de raisonnement obtenues en utilisant les récompenses propagées via des algorithmes de RL hors politique. Des expériences approfondies avec InternVL2.5 et InternVL3.0 (avec des tailles de 8B et 38B) montrent l'efficacité de SOPHIA. Notamment, SOPHIA améliore InternVL3.0-38B de 8,50 % en moyenne, atteignant des performances de pointe parmi les LVLM open source sur plusieurs benchmarks de raisonnement multimodal, et même surpassant certains modèles à code fermé (par exemple, GPT-4.1) sur des défis tels que MathVision et OlympiadBench, obtenant respectivement 49,08 % et 49,95 % de précision pass@1. L'analyse montre que SOPHIA dépasse les méthodes de finetuning supervisé et le RL en politique directe direct, offrant une meilleure initialisation de politique pour un entraînement ultérieur en politique directe.