CoLLaVO: Crayon pour la Langue et la Vision à Grande Échelle

Le succès remarquable des grands modèles de langage (LLMs) et de l'ajustement d'instructions pousse l'évolution des modèles de vision-langue (VLMs) vers un modèle polyvalent à usage général. Cependant, il reste à explorer si les VLMs actuels possèdent réellement des capacités de compréhension d'images au niveau objet déterminées par des questions telles que « quels objets sont présents dans l'image ? » ou « quel objet correspond à une boîte englobante spécifiée ? ». Nos résultats montrent que les capacités de compréhension d'images des VLMs actuels sont fortement corrélées avec leurs performances en zero-shot sur les tâches de vision-langue (VL). Ceci suggère que la priorisation de la compréhension basique des images est cruciale pour que les VLMs excellent dans les tâches VL. Pour améliorer la compréhension d'images au niveau objet, nous proposons le modèle Crayon Large Language and Vision mOdel (CoLLaVO), qui intègre l'ajustement d'instructions avec Crayon Prompt, un nouveau schéma d'ajustement de prompts visuels basé sur des cartes panoramiques de couleur. De plus, nous présentons une stratégie d'apprentissage Dual QLoRA pour préserver la compréhension d'images au niveau objet sans l'oublier lors de l'ajustement des instructions visuelles, ce qui permet d'atteindre un bond significatif dans de nombreux benchmarks VL en configuration zero-shot.