VALSE : Un benchmark indépendant des tâches pour les modèles de vision et de langage centrés sur les phénomènes linguistiques

Nous proposons VALSE (Vision And Language Structured Evaluation), un nouveau benchmark conçu pour évaluer les modèles préentraînés de vision et de langage (V&L) à des fins générales en ce qui concerne leurs capacités de contextualisation visio-linguistique sur des phénomènes linguistiques spécifiques. VALSE offre une batterie de six tests couvrant diverses constructions linguistiques. La résolution de ces tests nécessite que les modèles contextualisent les phénomènes linguistiques dans la modalité visuelle, permettant ainsi des évaluations plus fines que celles réalisées jusqu'à présent. Nous avons construit VALSE en utilisant des méthodes qui soutiennent la création de fausses pistes valides, et nous rapportons les résultats d'évaluations menées sur cinq modèles V&L largement utilisés. Nos expériences suggèrent que les modèles actuels éprouvent de grandes difficultés à aborder la plupart des phénomènes. Par conséquent, nous nous attendons à ce que VALSE serve de benchmark important pour mesurer les progrès futurs des modèles préentraînés V&L sous l'angle linguistique, complétant ainsi les évaluations V&L centrées sur les tâches canoniques.