il y a 17 jours

LaKo : Réponse à des questions visuelles pilotée par les connaissances par injection tardive de connaissances vers le texte

Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Yin Fang, Jeff Pan, Ningyu Zhang, Wen Zhang

Résumé

La réponse à des questions visuelles (VQA) nécessite souvent une compréhension des concepts visuels ainsi que des sémantiques du langage, ce qui repose sur des connaissances externes. La plupart des méthodes existantes exploitent des modèles linguistiques pré-entraînés ou/et des textes non structurés, mais les connaissances contenues dans ces ressources sont souvent incomplètes et bruitées. Certaines autres approches privilégient l’utilisation de graphes de connaissances (KG), qui contiennent généralement des connaissances structurées riches, mais la recherche dans ce domaine reste encore très préliminaire. Dans cet article, nous proposons LaKo, une méthode VQA pilotée par les connaissances basée sur une injection tardive des connaissances au format texte. Afin d’intégrer efficacement un KG externe, nous convertissons les triples en format textuel et proposons un mécanisme d’injection tardive pour la fusion des connaissances. Enfin, nous traitons la tâche VQA comme une tâche de génération de texte, en adoptant un cadre encodeur-décodeur efficace, ce qui permet d’obtenir des résultats de pointe sur le jeu de données OKVQA.