HyperAIHyperAI

Command Palette

Search for a command to run...

Apprendre à localiser des objets améliore le raisonnement spatial dans les modèles linguistiques visuels

Kanchana Ranasinghe Satya Narayan Shukla Omid Poursaeed Michael S. Ryoo Tsung-Yu Lin

Résumé

L’intégration des grands modèles linguistiques (LLM) dans les tâches du domaine visuel, donnant naissance aux modèles visuels-LLM (V-LLM), a permis des performances exceptionnelles dans les tâches vision-langage, en particulier pour la question-réponse visuelle (VQA). Toutefois, les V-LLM existants (par exemple BLIP-2, LLaVA) présentent une faible capacité de raisonnement spatial et une faible conscience de localisation. Malgré la génération de réponses textuelles très descriptives et détaillées, ces modèles échouent dans des tâches simples telles que la distinction entre une position à gauche ou à droite. Dans ce travail, nous explorons comment des objectifs d’ajustage par instruction basés sur les coordonnées de l’espace image peuvent injecter une conscience spatiale dans les V-LLM. Nous identifions des représentations de coordonnées optimales, des objectifs d’ajustage par instruction efficaces en données, ainsi que des stratégies de génération de pseudo-données qui améliorent significativement la conscience spatiale des V-LLM. En outre, le modèle résultant améliore les performances en VQA dans les domaines image et vidéo, réduit les hallucinations indésirables et génère des descriptions d’objets contextuelles plus précises. Des expériences menées sur 5 tâches vision-langage impliquant 14 jeux de données différents démontrent clairement les améliorations de performance apportées par notre cadre proposé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprendre à localiser des objets améliore le raisonnement spatial dans les modèles linguistiques visuels | Articles | HyperAI