il y a 2 mois

Compréhension Visuelle du Sens Commun dans les Modèles Pré-entraînés Unimodaux et Multimodaux

Chenyu Zhang; Benjamin Van Durme; Zhuowan Li; Elias Stengel-Eskin

Résumé

Notre connaissance intuitive des objets inclut leurs attributs visuels typiques ; nous savons que les bananes sont généralement jaunes ou vertes, et non violettes. Les corpus de texte et d'images, étant sujets à un biais de rapport, représentent cette connaissance du monde avec des degrés variés de fidélité. Dans cet article, nous examinons dans quelle mesure les modèles unimodaux (seulement langage) et multimodaux (images et langage) capturent une large gamme d'attributs visuellement saillants. À cette fin, nous créons le jeu de données Visual Commonsense Tests (ViComTe), couvrant 5 types de propriétés (couleur, forme, matériau, taille et co-occurrence visuelle) pour plus de 5000 sujets. Nous validons ce jeu de données en montrant que nos données de couleur ancrées corrélatent beaucoup mieux que les données textuelles non ancrées avec les jugements de couleur fournis par la foule par Paik et al. (2021). Nous utilisons ensuite notre jeu de données pour évaluer les modèles unimodaux pré-entraînés et les modèles multimodaux. Nos résultats indiquent que les modèles multimodaux reconstruisent mieux les distributions d'attributs, mais restent encore sujets au biais de rapport. De plus, l'augmentation de la taille des modèles n'améliore pas les performances, suggérant que la clé du sens commun visuel réside dans les données.