HyperAIHyperAI
il y a 2 mois

CLEVR-Ref+ : Diagnostic du Raisonnement Visuel avec des Expressions de Référence

Runtao Liu; Chenxi Liu; Yutong Bai; Alan Yuille
CLEVR-Ref+ : Diagnostic du Raisonnement Visuel avec des Expressions de Référence
Résumé

La détection d'objets par référence et la segmentation d'images par référence sont des tâches importantes qui nécessitent une compréhension conjointe de l'information visuelle et du langage naturel. Cependant, il existe des preuves que les ensembles de données de référence actuels souffrent de biais, et que les modèles d'avant-garde actuels ne peuvent pas être facilement évalués sur leur processus de raisonnement intermédiaire. Pour remédier à ces problèmes et compléter les efforts similaires dans le domaine des questions visuelles, nous avons créé CLEVR-Ref+, un ensemble de données diagnostique synthétique pour la compréhension des expressions de référence. Les emplacements précis et les attributs des objets sont facilement disponibles, et les expressions de référence sont automatiquement associées à des programmes fonctionnels. La nature synthétique permet un contrôle sur le biais des ensembles de données (via une stratégie d'échantillonnage), tandis que les programmes modulaires permettent d'obtenir une vérité terrain intermédiaire sans l'intervention d'annotateurs humains.En plus d'évaluer plusieurs modèles d'avant-garde sur CLEVR-Ref+, nous proposons également IEP-Ref, une approche basée sur un réseau de modules qui surpasse considérablement les autres modèles sur notre ensemble de données. Plus particulièrement, nous présentons deux résultats intéressants et importants à l'aide d'IEP-Ref : (1) le module formé pour transformer les cartes de caractéristiques en masques de segmentation peut être attaché à n'importe quel module intermédiaire pour révéler l'ensemble du processus de raisonnement étape par étape ; (2) même si toutes les données d'entraînement font référence à au moins un objet, IEP-Ref peut prédire correctement l'absence de premier plan lorsqu'il est confronté à des expressions de référence fausses ou erronées. À notre connaissance, c'est la première preuve directe et quantitative que les modules neuronaux se comportent comme ils sont censés le faire.