il y a 17 jours

Au-delà des biais basés sur les questions : Évaluation de l'apprentissage rapide multimodal dans la réponse aux questions visuelles

Corentin Dancette, Remi Cadene, Damien Teney, Matthieu Cord

Résumé

Nous introduisons une méthodologie d'évaluation pour la réponse aux questions visuelles (VQA) afin de diagnostiquer plus efficacement les cas d'apprentissage par raccourci. Ces cas surviennent lorsque le modèle exploite des régularités statistiques fallacieuses pour produire des réponses correctes, sans pour autant mettre en œuvre le comportement souhaité. Il est essentiel d’identifier les éventuels raccourcis présents dans un jeu de données et d’évaluer leur utilisation avant de déployer un modèle dans un environnement réel. La communauté de recherche en VQA s’est jusqu’à présent concentrée exclusivement sur les raccourcis basés sur les questions, par exemple lorsque le modèle répond « bleu » à la question « Quelle est la couleur du ciel » en se basant principalement sur une préférence d’entraînement conditionnelle à la question, tout en accordant peu d’importance aux éléments visuels. Nous allons plus loin en considérant les raccourcis multimodaux, qui impliquent à la fois les questions et les images. Nous identifions d’abord des raccourcis potentiels dans le jeu d’entraînement VQA v2 populaire en extrayant des règles prédictives triviales, telles que les co-occurrences de mots et d’éléments visuels. Ensuite, nous proposons VQA-CounterExamples (VQA-CE), un protocole d’évaluation fondé sur notre sous-ensemble de contre-exemples — c’est-à-dire des triplets image-question-réponse où nos règles mènent à une réponse incorrecte. Nous utilisons cette nouvelle évaluation dans une étude à grande échelle des approches existantes en VQA. Nos résultats montrent que même les modèles d’état de l’art se comportent mal, et que les techniques actuelles visant à réduire les biais s’avèrent largement inefficaces dans ce contexte. Nos découvertes suggèrent que les travaux antérieurs sur les biais basés sur les questions en VQA n’ont traité qu’un aspect d’un problème complexe. Le code de notre méthode est disponible à l’adresse suivante : https://github.com/cdancette/detect-shortcuts.