Entailment Visuel : Une Nouvelle Tâche pour une Compréhension Détaillée des Images

Les jeux de données existants en raisonnement visuel, tels que Visual Question Answering (VQA), souffrent souvent de biais conditionnés par la distribution des questions, des images ou des réponses. Le récent jeu de données CLEVR aborde ces limitations et nécessite un raisonnement finement granulaire, mais le jeu de données est synthétique et comporte des objets similaires et des structures de phrases uniformes à travers l'ensemble.Dans cet article, nous introduisons une nouvelle tâche d'inférence, le Visual Entailment (VE) - composée de paires image-sentence où une prémisse est définie par une image, plutôt que par une phrase en langage naturel comme dans les tâches traditionnelles d'Entailment textuel. L'objectif d'un modèle VE entraîné est de prédire si l'image implique sémantiquement le texte. Pour réaliser cette tâche, nous avons construit un jeu de données appelé SNLI-VE basé sur le corpus Stanford Natural Language Inference et le dataset Flickr30k. Nous évaluons diverses lignes de base VQA existantes et construisons un modèle nommé Système d'Entailment Visuel Explicable (EVE) pour traiter la tâche VE. L'EVE atteint jusqu'à 71% de précision et surpasse plusieurs autres modèles VQA basés sur l'état de l'art. Enfin, nous démontrons l'explicabilité de l'EVE grâce à des visualisations d'attention intermodale. Le jeu de données SNLI-VE est disponible au public sur https://github.com/necla-ml/SNLI-VE.