KRISP : Intégration des connaissances implicites et symboliques pour la VQA fondée sur des connaissances dans un domaine ouvert

L’un des types de questions les plus complexes dans les tâches de VQA (Visual Question Answering) concerne les questions dont la réponse nécessite des connaissances extérieures absentes de l’image. Dans ce travail, nous étudions le cadre de la connaissance en domaine ouvert, où les connaissances requises pour répondre à une question ne sont ni fournies ni annotées, ni au moment de l’entraînement ni au moment du test. Nous exploitions deux types de représentations et de raisonnement basés sur la connaissance : premièrement, la connaissance implicite, qui peut être efficacement apprise à partir de données non étiquetées via un pré-entraînement linguistique non supervisé et de données d’entraînement supervisé, notamment à l’aide de modèles basés sur les transformateurs ; deuxièmement, la connaissance explicite, codée sous forme symbolique dans des bases de connaissances. Notre approche combine les deux : elle exploite le puissant raisonnement implicite des modèles à transformateurs pour la prédiction des réponses, tout en intégrant des représentations symboliques issues d’un graphe de connaissances, sans jamais perdre leurs sémantiques explicites au profit d’un embedding implicite. En combinant diverses sources de connaissance, nous couvrons la grande variété de connaissances nécessaires pour répondre aux questions fondées sur des connaissances. Nous montrons que notre méthode, KRISP (Knowledge Reasoning with Implicit and Symbolic rePresentations), surpasse significativement les états de l’art sur OK-VQA, le plus grand jeu de données disponible pour la VQA fondée sur des connaissances en domaine ouvert. À l’aide d’ablations étendues, nous démontrons que bien que notre modèle exploite efficacement le raisonnement fondé sur la connaissance implicite, le module de réponse symbolique — qui établit explicitement une connexion entre le graphe de connaissances et le vocabulaire des réponses — est crucial pour les performances de notre méthode, et permet une généralisation efficace aux réponses rares.