VisionThink : Modèle de Langage Visuel Intelligent et Efficace par Apprentissage par Renforcement

Les récentes avancées dans les modèles de vision-langage (VLMs) ont amélioré les performances en augmentant le nombre de jetons visuels, qui sont souvent considérablement plus longs que les jetons textuels. Cependant, nous constatons que la plupart des scénarios du monde réel n'exigent pas un tel nombre important de jetons visuels. Bien que les performances baissent significativement pour une petite sous-ensemble de tâches liées à l'OCR, les modèles continuent d'effectuer avec précision la majorité des autres tâches VQA générales à une résolution quatre fois inférieure. Par conséquent, nous proposons de traiter dynamiquement des échantillons distincts avec différentes résolutions et présentons un nouveau paradigme pour la compression des jetons visuels, appelé VisionThink. Ce processus commence par une image sous-échantillonnée et décide intelligemment si elle est suffisante pour résoudre le problème. Sinon, le modèle peut générer un jeton spécial pour demander une image à plus haute résolution. Comparé aux méthodes existantes d'optimisation des VLMs qui compressent les jetons en utilisant des taux d'élagage ou des seuils fixes, VisionThink prend la décision de compresser les jetons au cas par cas de manière autonome. Ainsi, il montre une forte capacité de compréhension visuelle fine sur les tâches liées à l'OCR tout en économisant un grand nombre de jetons visuels sur les tâches plus simples. Nous utilisons l'apprentissage par renforcement et proposons la stratégie LLM-as-Judge pour appliquer avec succès l'RL aux tâches VQA générales. De plus, nous concevons soigneusement une fonction de récompense et un mécanisme de pénalisation afin d'obtenir un ratio d'appels redimensionnement d'image stable et raisonnable. De nombreux expériences démontrent la supériorité, l'efficacité et l'efficience de notre méthode. Notre code est disponible sur https://github.com/dvlab-research/VisionThink.