Mesure de l'évolution dans la compréhension fine des tâches vision-langage

Bien que le préentraînement sur de grandes masses de données image-texte issues du Web ait permis des progrès rapides dans de nombreuses tâches vision-langage (V&L), des travaux récents ont montré que les modèles préentraînés manquent d’une compréhension « fine », notamment la capacité à reconnaître des relations, des verbes ou des nombres présents dans les images. Cela a suscité un intérêt croissant dans la communauté pour développer de nouveaux benchmarks ou modèles capables de telles compétences. Afin de mieux comprendre et quantifier les progrès réalisés dans cette direction, nous étudions quatre modèles V&L performants sur quatre benchmarks à fort niveau de granularité. L’analyse révèle que X-VLM (Zeng et al., 2022) surpasse de manière constante les autres modèles de référence, et que les innovations dans la modélisation peuvent avoir un impact plus important que l’augmentation de la taille des données Web, qui peut même parfois dégrader les performances. Une investigation approfondie de X-VLM met en évidence l’importance à la fois de pertes nouvelles et de sources de données riches pour l’apprentissage de compétences fines. Enfin, en examinant la dynamique d’entraînement, nous constatons que, pour certaines tâches, les performances atteignent un pic tôt dans le processus d’entraînement ou présentent des fluctuations importantes, sans jamais converger.