HyperAIHyperAI

Command Palette

Search for a command to run...

Compréhension Visuelle du Sens Commun dans les Modèles Pré-entraînés Unimodaux et Multimodaux

Chenyu Zhang Benjamin Van Durme Zhuowan Li* Elias Stengel-Eskin*

Résumé

Notre connaissance intuitive des objets inclut leurs attributs visuels typiques ; nous savons que les bananes sont généralement jaunes ou vertes, et non violettes. Les corpus de texte et d'images, étant sujets à un biais de rapport, représentent cette connaissance du monde avec des degrés variés de fidélité. Dans cet article, nous examinons dans quelle mesure les modèles unimodaux (seulement langage) et multimodaux (images et langage) capturent une large gamme d'attributs visuellement saillants. À cette fin, nous créons le jeu de données Visual Commonsense Tests (ViComTe), couvrant 5 types de propriétés (couleur, forme, matériau, taille et co-occurrence visuelle) pour plus de 5000 sujets. Nous validons ce jeu de données en montrant que nos données de couleur ancrées corrélatent beaucoup mieux que les données textuelles non ancrées avec les jugements de couleur fournis par la foule par Paik et al. (2021). Nous utilisons ensuite notre jeu de données pour évaluer les modèles unimodaux pré-entraînés et les modèles multimodaux. Nos résultats indiquent que les modèles multimodaux reconstruisent mieux les distributions d'attributs, mais restent encore sujets au biais de rapport. De plus, l'augmentation de la taille des modèles n'améliore pas les performances, suggérant que la clé du sens commun visuel réside dans les données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp