CLEVR-X : Un jeu de données pour le raisonnement visuel avec explications en langage naturel

Fournir des explications dans le cadre de la réponse aux questions visuelles (Visual Question Answering, VQA) constitue un problème fondamental en apprentissage automatique. Afin d’obtenir des insights détaillés sur le processus de génération de justifications en langage naturel pour la VQA, nous introduisons le jeu de données à grande échelle CLEVR-X, qui étend le jeu de données CLEVR en y ajoutant des explications en langage naturel. Pour chaque paire image-question du jeu de données CLEVR, CLEVR-X contient plusieurs explications textuelles structurées, dérivées des graphes de scène originaux. Par construction, les explications de CLEVR-X sont correctes et décrivent à la fois le raisonnement nécessaire et les informations visuelles pertinentes pour répondre à une question donnée. Nous avons mené une étude utilisateur afin de confirmer que les explications de référence (ground-truth) présentes dans notre jeu de données sont effectivement complètes et pertinentes. Nous présentons des résultats de base pour la génération de justifications en langage naturel dans le cadre de la VQA, en utilisant deux cadres d’état de l’art sur le jeu de données CLEVR-X. En outre, nous fournissons une analyse détaillée de la qualité de génération des explications selon les types de questions et de réponses. Nous étudions également l’impact de l’utilisation d’un nombre différent d’explications de référence sur la convergence des métriques de génération de langage naturel (NLG). Le jeu de données CLEVR-X est disponible publiquement à l’adresse suivante : \url{https://explainableml.github.io/CLEVR-X/}.