HyperAIHyperAI

Command Palette

Search for a command to run...

Réponse à des questions visuelles augmentée par la récupération de connaissances externes

Weizhe Lin Bill Byrne

Résumé

La tâche de réponse à des questions visuelles à connaissance externe (OK-VQA) constitue un défi majeur dans le domaine de la vision par ordinateur, car elle exige l’exploitation de connaissances externes pour répondre à des questions portant sur des images. Les systèmes récents d’OK-VQA utilisent la recherche de passages denses (Dense Passage Retrieval, DPR) afin d’extraire des documents à partir de bases de connaissances externes, comme Wikipedia. Toutefois, puisque le modèle DPR est entraîné de manière indépendante par rapport à la génération de réponses, cette séparation peut limiter les performances globales du système. À la place, nous proposons une stratégie d’entraînement conjoint, intégrant une version différentiable de DPR au processus de génération de réponses, permettant ainsi un apprentissage end-to-end du système complet. Nos expérimentations montrent que notre approche surpasser les systèmes récents d’OK-VQA utilisant un DPR puissant pour la recherche. Nous introduisons également de nouveaux indicateurs diagnostiques pour analyser l’interaction entre la phase de recherche et celle de génération. La forte capacité de recherche de notre modèle permet de réduire significativement le nombre de documents récupérés pendant l’entraînement, offrant ainsi des gains substantiels en qualité des réponses et en ressources computationnelles nécessaires à l’entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp