Raisonnement Auto-Critique pour une Réponse Visuelle aux Questions Robuste

Les systèmes de deep learning pour le Visual Question Answering (VQA) ont tendance à capturer des corrélations statistiques superficielles dans les données d'entraînement en raison de préjugés linguistiques forts et échouent à généraliser aux données de test présentant une distribution question-réponse (QA) significativement différente. Pour remédier à ce problème, nous introduisons un objectif d'entraînement auto-critique qui garantit que les explications visuelles des réponses correctes correspondent davantage aux régions d'image les plus influentes que les autres candidats de réponse concurrents. Les régions influentes sont soit déterminées à partir d'explications visuelles/textuelles fournies par des humains, soit automatiquement à partir des mots significatifs du question et de la réponse. Nous évaluons notre approche sur la tâche de généralisation VQA en utilisant le jeu de données VQA-CP, atteignant un nouveau niveau d'état de l'art, soit 49,5 % avec des explications textuelles et 48,5 % avec des régions annotées automatiquement.