HyperAIHyperAI
il y a 18 jours

CREPE : Les modèles fondamentaux vision-langage peuvent-ils raisonner de manière compositionnelle ?

Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna
CREPE : Les modèles fondamentaux vision-langage peuvent-ils raisonner de manière compositionnelle ?
Résumé

Une caractéristique fondamentale commune à la vision humaine et au langage naturel réside dans leur nature compositionnelle. Pourtant, malgré les progrès de performance apportés par les pré-entraînements à grande échelle en vision et en langage, nous constatons que : sur 7 architectures entraînées avec 4 algorithmes sur de vastes jeux de données, les modèles peinent à maîtriser la compositionnalité. Pour parvenir à cette conclusion, nous introduisons une nouvelle évaluation du benchmark de compositionnalité, appelé CREPE, qui mesure deux aspects essentiels de la compositionnalité identifiés par la littérature en sciences cognitives : la systématique et la productivité. Pour évaluer la systématique, CREPE comprend un jeu de données de test contenant plus de 370 000 paires image-texte et trois séparations différentes entre données vues et non vues. Ces trois séparations sont conçues pour tester les modèles entraînés sur trois jeux de données populaires : CC-12M, YFCC-15M et LAION-400M. Nous avons également généré 325 000, 316 000 et 309 000 légendes négatives difficiles pour un sous-ensemble de ces paires. Pour évaluer la productivité, CREPE contient 17 000 paires image-texte présentant neuf niveaux de complexité différents, ainsi que 183 000 légendes négatives difficiles incluant des éléments atomiques, des permutations et des négations. Les jeux de données ont été générés en réutilisant les graphes de scènes et les descriptions régionales du Visual Genome, en combinant des modèles manuellement conçus et GPT-3. En ce qui concerne la systématique, nous observons que les performances des modèles diminuent de manière constante lorsque les compositions nouvelles dominent l'ensemble de récupération, avec une chute du Recall@1 pouvant atteindre 12 %. En ce qui concerne la productivité, la réussite en récupération des modèles diminue avec l'augmentation de la complexité, souvent s'approchant du hasard dans les cas de haute complexité. Ces résultats sont robustes, indépendamment de la taille du modèle ou du jeu de données d'entraînement.