HyperAIHyperAI
il y a 17 jours

QLEVR : Un jeu de données diagnostique pour le raisonnement linguistique quantificatif et élémentaire visuel

Zechen Li, Anders Søgaard
QLEVR : Un jeu de données diagnostique pour le raisonnement linguistique quantificatif et élémentaire visuel
Résumé

Les jeux de données synthétiques ont été efficacement utilisés pour évaluer les capacités de raisonnement des modèles de question-réponse visuelle. Le jeu de données CLEVR (johnson2017clevr), par exemple, teste diverses capacités de raisonnement visuel. Les questions posées dans CLEVR portent sur des comparaisons de formes, de couleurs et de tailles, des raisonnements numériques, ainsi que des affirmations d’existence. Ce papier présente un nouveau jeu de données de question-réponse visuelle, QLEVR, conçu pour être minimalement biaisé et diagnostique, qui va au-delà des quantifications existentielles et numériques pour se concentrer sur des quantificateurs plus complexes et leurs combinaisons. Par exemple, une question peut demander s’il existe plus de deux balles rouges qui sont plus petites que au moins trois balles bleues dans une image. Nous décrivons la méthode de création de ce jeu de données et présentons une première évaluation des modèles d’état de l’art en question-réponse visuelle, montrant que QLEVR pose un défi considérable aux modèles actuels. Le code et le jeu de données sont disponibles à l’adresse suivante : https://github.com/zechenli03/QLEVR