HyperAIHyperAI
il y a 17 jours

KVL-BERT : BERT enrichi par des connaissances pour le raisonnement visuel communautaire basé sur le visuel et le linguistique

Dandan Song, Siyi Ma, Zhanchen Sun, Sicheng Yang, Lejian Liao
KVL-BERT : BERT enrichi par des connaissances pour le raisonnement visuel communautaire basé sur le visuel et le linguistique
Résumé

Le raisonnement constitue une capacité essentielle pour atteindre une compréhension visuelle complète. Afin de développer des machines capables de comprendre et de raisonner au niveau cognitif à partir d’images, la tâche de raisonnement visuel du sens commun (Visual Commonsense Reasoning, VCR) a été introduite. Dans cette tâche, étant donné une question complexe portant sur une image, une machine doit non seulement fournir une réponse correcte, mais aussi justifier celle-ci par une justification rationnelle. Les méthodes qui utilisent le puissant modèle BERT comme architecture principale pour apprendre une représentation conjointe du contenu visuel et du langage naturel ont montré des améliorations prometteuses sur la tâche VCR. Toutefois, aucune des méthodes existantes n’a exploité activement les connaissances du sens commun dans le raisonnement visuel du sens commun, ce que nous estimons être un facteur très bénéfique pour cette tâche. Grâce à l’intégration de connaissances du sens commun, des questions complexes peuvent être résolues même lorsque les informations nécessaires ne sont pas directement présentes dans l’image, en s’appuyant sur un raisonnement cognitif. Par conséquent, nous intégrons des connaissances du sens commun dans le modèle BERT multimodal, et proposons un nouveau modèle, appelé KVL-BERT (Knowledge Enhanced Visual-and-Linguistic BERT). Contrairement aux approches classiques, notre modèle prend non seulement en entrée le contenu visuel et linguistique, mais aussi des connaissances externes du sens commun extraites de ConceptNet, intégrées dans les couches multiples du Transformer. Afin de préserver l’information structurelle et la représentation sémantique de la phrase d’origine, nous proposons d’utiliser des embeddings de position relative et une attention auto-masquée pour atténuer l’effet des connaissances du sens commun injectées sur les composants non pertinents de la séquence d’entrée. En comparaison avec d’autres modèles spécifiques à la tâche ainsi qu’avec des modèles de pré-entraînement généraux indépendants de la tâche, notre modèle KVL-BERT obtient des performances nettement supérieures.

KVL-BERT : BERT enrichi par des connaissances pour le raisonnement visuel communautaire basé sur le visuel et le linguistique | Articles de recherche récents | HyperAI