HyperAIHyperAI

Command Palette

Search for a command to run...

CoLLaVO: Crayon pour la Langue et la Vision à Grande Échelle

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

Résumé

Le succès remarquable des grands modèles de langage (LLMs) et de l'ajustement d'instructions pousse l'évolution des modèles de vision-langue (VLMs) vers un modèle polyvalent à usage général. Cependant, il reste à explorer si les VLMs actuels possèdent réellement des capacités de compréhension d'images au niveau objet déterminées par des questions telles que « quels objets sont présents dans l'image ? » ou « quel objet correspond à une boîte englobante spécifiée ? ». Nos résultats montrent que les capacités de compréhension d'images des VLMs actuels sont fortement corrélées avec leurs performances en zero-shot sur les tâches de vision-langue (VL). Ceci suggère que la priorisation de la compréhension basique des images est cruciale pour que les VLMs excellent dans les tâches VL. Pour améliorer la compréhension d'images au niveau objet, nous proposons le modèle Crayon Large Language and Vision mOdel (CoLLaVO), qui intègre l'ajustement d'instructions avec Crayon Prompt, un nouveau schéma d'ajustement de prompts visuels basé sur des cartes panoramiques de couleur. De plus, nous présentons une stratégie d'apprentissage Dual QLoRA pour préserver la compréhension d'images au niveau objet sans l'oublier lors de l'ajustement des instructions visuelles, ce qui permet d'atteindre un bond significatif dans de nombreux benchmarks VL en configuration zero-shot.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp