HyperAIHyperAI

Command Palette

Search for a command to run...

KVL-BERT : BERT enrichi par des connaissances pour le raisonnement visuel communautaire basé sur le visuel et le linguistique

Dandan Song Siyi Ma Zhanchen Sun Sicheng Yang Lejian Liao

Résumé

Le raisonnement constitue une capacité essentielle pour atteindre une compréhension visuelle complète. Afin de développer des machines capables de comprendre et de raisonner au niveau cognitif à partir d’images, la tâche de raisonnement visuel du sens commun (Visual Commonsense Reasoning, VCR) a été introduite. Dans cette tâche, étant donné une question complexe portant sur une image, une machine doit non seulement fournir une réponse correcte, mais aussi justifier celle-ci par une justification rationnelle. Les méthodes qui utilisent le puissant modèle BERT comme architecture principale pour apprendre une représentation conjointe du contenu visuel et du langage naturel ont montré des améliorations prometteuses sur la tâche VCR. Toutefois, aucune des méthodes existantes n’a exploité activement les connaissances du sens commun dans le raisonnement visuel du sens commun, ce que nous estimons être un facteur très bénéfique pour cette tâche. Grâce à l’intégration de connaissances du sens commun, des questions complexes peuvent être résolues même lorsque les informations nécessaires ne sont pas directement présentes dans l’image, en s’appuyant sur un raisonnement cognitif. Par conséquent, nous intégrons des connaissances du sens commun dans le modèle BERT multimodal, et proposons un nouveau modèle, appelé KVL-BERT (Knowledge Enhanced Visual-and-Linguistic BERT). Contrairement aux approches classiques, notre modèle prend non seulement en entrée le contenu visuel et linguistique, mais aussi des connaissances externes du sens commun extraites de ConceptNet, intégrées dans les couches multiples du Transformer. Afin de préserver l’information structurelle et la représentation sémantique de la phrase d’origine, nous proposons d’utiliser des embeddings de position relative et une attention auto-masquée pour atténuer l’effet des connaissances du sens commun injectées sur les composants non pertinents de la séquence d’entrée. En comparaison avec d’autres modèles spécifiques à la tâche ainsi qu’avec des modèles de pré-entraînement généraux indépendants de la tâche, notre modèle KVL-BERT obtient des performances nettement supérieures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
KVL-BERT : BERT enrichi par des connaissances pour le raisonnement visuel communautaire basé sur le visuel et le linguistique | Articles | HyperAI