HyperAIHyperAI

Command Palette

Search for a command to run...

KRISP : Intégration des connaissances implicites et symboliques pour la VQA fondée sur des connaissances dans un domaine ouvert

Kenneth Marino Xinlei Chen Devi Parikh Abhinav Gupta Marcus Rohrbach

Résumé

L’un des types de questions les plus complexes dans les tâches de VQA (Visual Question Answering) concerne les questions dont la réponse nécessite des connaissances extérieures absentes de l’image. Dans ce travail, nous étudions le cadre de la connaissance en domaine ouvert, où les connaissances requises pour répondre à une question ne sont ni fournies ni annotées, ni au moment de l’entraînement ni au moment du test. Nous exploitions deux types de représentations et de raisonnement basés sur la connaissance : premièrement, la connaissance implicite, qui peut être efficacement apprise à partir de données non étiquetées via un pré-entraînement linguistique non supervisé et de données d’entraînement supervisé, notamment à l’aide de modèles basés sur les transformateurs ; deuxièmement, la connaissance explicite, codée sous forme symbolique dans des bases de connaissances. Notre approche combine les deux : elle exploite le puissant raisonnement implicite des modèles à transformateurs pour la prédiction des réponses, tout en intégrant des représentations symboliques issues d’un graphe de connaissances, sans jamais perdre leurs sémantiques explicites au profit d’un embedding implicite. En combinant diverses sources de connaissance, nous couvrons la grande variété de connaissances nécessaires pour répondre aux questions fondées sur des connaissances. Nous montrons que notre méthode, KRISP (Knowledge Reasoning with Implicit and Symbolic rePresentations), surpasse significativement les états de l’art sur OK-VQA, le plus grand jeu de données disponible pour la VQA fondée sur des connaissances en domaine ouvert. À l’aide d’ablations étendues, nous démontrons que bien que notre modèle exploite efficacement le raisonnement fondé sur la connaissance implicite, le module de réponse symbolique — qui établit explicitement une connexion entre le graphe de connaissances et le vocabulaire des réponses — est crucial pour les performances de notre méthode, et permet une généralisation efficace aux réponses rares.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp