il y a 7 jours

Apprendre à localiser des objets améliore le raisonnement spatial dans les modèles linguistiques visuels

Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin

Résumé

L’intégration des grands modèles linguistiques (LLM) dans les tâches du domaine visuel, donnant naissance aux modèles visuels-LLM (V-LLM), a permis des performances exceptionnelles dans les tâches vision-langage, en particulier pour la question-réponse visuelle (VQA). Toutefois, les V-LLM existants (par exemple BLIP-2, LLaVA) présentent une faible capacité de raisonnement spatial et une faible conscience de localisation. Malgré la génération de réponses textuelles très descriptives et détaillées, ces modèles échouent dans des tâches simples telles que la distinction entre une position à gauche ou à droite. Dans ce travail, nous explorons comment des objectifs d’ajustage par instruction basés sur les coordonnées de l’espace image peuvent injecter une conscience spatiale dans les V-LLM. Nous identifions des représentations de coordonnées optimales, des objectifs d’ajustage par instruction efficaces en données, ainsi que des stratégies de génération de pseudo-données qui améliorent significativement la conscience spatiale des V-LLM. En outre, le modèle résultant améliore les performances en VQA dans les domaines image et vidéo, réduit les hallucinations indésirables et génère des descriptions d’objets contextuelles plus précises. Des expériences menées sur 5 tâches vision-langage impliquant 14 jeux de données différents démontrent clairement les améliorations de performance apportées par notre cadre proposé.