Groupement perceptif dans les modèles vision-langue contrastifs

Les récentes avancées en reconnaissance d'images à zéro coup d'œil suggèrent que les modèles de vision-langue apprennent des représentations visuelles génériques contenant un haut degré d'information sémantique qui peuvent être arbitrairement interrogées par des phrases en langage naturel. Cependant, comprendre une image ne se limite pas à identifier son contenu, mais implique également de savoir où ce contenu est situé. Dans cette étude, nous examinons la capacité des modèles de vision-langue à comprendre l'emplacement des objets dans une image et à regrouper les parties visuellement liées de l'image. Nous montrons comment les modèles actuels d'apprentissage des représentations de vision et de langage, basés sur des pertes contrastives et sur de grandes bases de données web, capturent une information limitée sur la localisation des objets. Nous proposons un ensemble minimal de modifications qui permettent aux modèles d'apprendre à la fois l'information sémantique et spatiale. Nous mesurons ces performances en termes de reconnaissance d'images à zéro coup d’œil, de segmentations sémantiques ascendantes et descendantes non supervisées, ainsi que d'analyses de robustesse. Nous constatons que le modèle résultant obtient des résultats d'avant-garde en termes de segmentation non supervisée et démontrons que les représentations apprises sont particulièrement robustes face aux corrélations parasites dans les jeux de données conçus pour tester le comportement causal des modèles de vision.