Réponse à des questions visuelles augmentée par la récupération de connaissances externes

La tâche de réponse à des questions visuelles à connaissance externe (OK-VQA) constitue un défi majeur dans le domaine de la vision par ordinateur, car elle exige l’exploitation de connaissances externes pour répondre à des questions portant sur des images. Les systèmes récents d’OK-VQA utilisent la recherche de passages denses (Dense Passage Retrieval, DPR) afin d’extraire des documents à partir de bases de connaissances externes, comme Wikipedia. Toutefois, puisque le modèle DPR est entraîné de manière indépendante par rapport à la génération de réponses, cette séparation peut limiter les performances globales du système. À la place, nous proposons une stratégie d’entraînement conjoint, intégrant une version différentiable de DPR au processus de génération de réponses, permettant ainsi un apprentissage end-to-end du système complet. Nos expérimentations montrent que notre approche surpasser les systèmes récents d’OK-VQA utilisant un DPR puissant pour la recherche. Nous introduisons également de nouveaux indicateurs diagnostiques pour analyser l’interaction entre la phase de recherche et celle de génération. La forte capacité de recherche de notre modèle permet de réduire significativement le nombre de documents récupérés pendant l’entraînement, offrant ainsi des gains substantiels en qualité des réponses et en ressources computationnelles nécessaires à l’entraînement.