HyperAIHyperAI
il y a 11 jours

Réexamen du rôle des priorités linguistiques dans les modèles vision-langage

Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
Réexamen du rôle des priorités linguistiques dans les modèles vision-langage
Résumé

Les modèles vision-langage (VLM) exercent une influence notable en grande partie parce qu’ils peuvent être appliqués à diverses tâches de compréhension visuelle de manière zéro-shot, sans aucun ajustement fin (fine-tuning). Nous étudions les modèles VLM génératifs, entraînés pour la génération du mot suivant à partir d’une image. Nous évaluons leur performance zéro-shot sur la tâche illustrative de recherche d’image-texte, sur 8 benchmarks populaires en vision-langage. Notre première observation est qu’ils peuvent être réutilisés pour des tâches discriminatives (telles que la recherche d’image-texte) en calculant simplement le score de correspondance associé à la génération d’une chaîne de texte spécifique à partir d’une image. Nous appelons ce score probabiliste le Visual Generative Pre-Training Score (VisualGPTScore). Bien que le VisualGPTScore atteigne une précision quasi parfaite sur certains benchmarks de recherche, ses performances sont médiocres sur d’autres. Nous analysons ce comportement sous un angle probabiliste, en soulignant que certains benchmarks captent involontairement des distributions de langage anormales en produisant des légendes textuelles adverses mais peu probables. En fait, nous démontrons qu’un modèle langage « aveugle », ignorant toute information visuelle, peut parfois surpasser toutes les méthodes antérieures, rappelant les défis similaires rencontrés par la communauté du questionnement visuel (VQA) il y a plusieurs années. Nous proposons une méthode post-processing probabiliste qui permet de contrôler le degré de biais linguistique des VLM génératifs au moment de l’évaluation, sans avoir à réentraîner ou ajuster finement le modèle. Nous montrons que, une fois correctement débiaisé, le VisualGPTScore constitue une base zéro-shot solide pour la compréhension vision-langage, souvent produisant des performances de pointe.

Réexamen du rôle des priorités linguistiques dans les modèles vision-langage | Articles de recherche récents | HyperAI