HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par renforcement semi-off-policy pour le raisonnement lent vision-langage

Junhao Shen Haiteng Zhao Yuzhe Gu Songyang Gao Kuikun Liu Haian Huang Jianfei Gao Dahua Lin Wenwei Zhang Kai Chen

Résumé

L'amélioration des grands modèles vision-langage (LVLMs) par un raisonnement lent visuel est essentielle pour résoudre des tâches multimodales complexes. Cependant, comme les LVLMs sont principalement entraînés sur l'alignement vision-langage, il est difficile d'appliquer l'apprentissage par renforcement (RL) en politique directe (on-policy RL) pour développer une capacité de raisonnement lent, car l'espace de simulation est limité par leurs capacités initiales. Le RL hors politique (off-policy RL) offre une solution pour dépasser la politique actuelle, mais la distillation directe des trajectoires à partir de modèles externes peut entraîner des hallucinations visuelles en raison des différences dans les capacités de perception visuelle entre les modèles. Pour résoudre ces problèmes, cet article propose SOPHIA, un RL semi-hors politique simple et évolutif pour le raisonnement lent vision-langage. SOPHIA construit un modèle de comportement semi-hors politique en combinant la compréhension visuelle en politique directe d'un LVLM entraînable avec le raisonnement lent hors politique d'un modèle de langage, attribue des récompenses basées sur les résultats au raisonnement, et propage en arrière les récompenses visuelles. Ainsi, le LVLM apprend la capacité de raisonnement lent à partir des trajectoires de raisonnement obtenues en utilisant les récompenses propagées via des algorithmes de RL hors politique. Des expériences approfondies avec InternVL2.5 et InternVL3.0 (avec des tailles de 8B et 38B) montrent l'efficacité de SOPHIA. Notamment, SOPHIA améliore InternVL3.0-38B de 8,50 % en moyenne, atteignant des performances de pointe parmi les LVLM open source sur plusieurs benchmarks de raisonnement multimodal, et même surpassant certains modèles à code fermé (par exemple, GPT-4.1) sur des défis tels que MathVision et OlympiadBench, obtenant respectivement 49,08 % et 49,95 % de précision pass@1. L'analyse montre que SOPHIA dépasse les méthodes de finetuning supervisé et le RL en politique directe direct, offrant une meilleure initialisation de politique pour un entraînement ultérieur en politique directe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp