HyperAIHyperAI

Command Palette

Search for a command to run...

LaKo : Réponse à des questions visuelles pilotée par les connaissances par injection tardive de connaissances vers le texte

Zhuo Chen Yufeng Huang Jiaoyan Chen Yuxia Geng Yin Fang Jeff Pan Ningyu Zhang Wen Zhang

Résumé

La réponse à des questions visuelles (VQA) nécessite souvent une compréhension des concepts visuels ainsi que des sémantiques du langage, ce qui repose sur des connaissances externes. La plupart des méthodes existantes exploitent des modèles linguistiques pré-entraînés ou/et des textes non structurés, mais les connaissances contenues dans ces ressources sont souvent incomplètes et bruitées. Certaines autres approches privilégient l’utilisation de graphes de connaissances (KG), qui contiennent généralement des connaissances structurées riches, mais la recherche dans ce domaine reste encore très préliminaire. Dans cet article, nous proposons LaKo, une méthode VQA pilotée par les connaissances basée sur une injection tardive des connaissances au format texte. Afin d’intégrer efficacement un KG externe, nous convertissons les triples en format textuel et proposons un mécanisme d’injection tardive pour la fusion des connaissances. Enfin, nous traitons la tâche VQA comme une tâche de génération de texte, en adoptant un cadre encodeur-décodeur efficace, ce qui permet d’obtenir des résultats de pointe sur le jeu de données OKVQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp