HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération multimodale à interaction tardive à granularité fine pour la réponse aux questions visuelles augmentée par la récupération

Weizhe Lin Jinghong Chen Jingbiao Mei Alexandru Coca Bill Byrne

Résumé

La réponse aux questions visuelles fondée sur les connaissances (KB-VQA) exige que les systèmes de réponse aux questions visuelles exploitent des connaissances provenant de bases de connaissances externes afin de répondre à des questions ancrées visuellement. La réponse aux questions visuelles augmentée par la récupération (RA-VQA), un cadre puissant pour aborder le KB-VQA, commence par récupérer des documents pertinents via une récupération de passages denses (Dense Passage Retrieval, DPR), puis utilise ces documents pour formuler des réponses. Ce papier propose une méthode de récupération multimodale à interaction tardive fine (Fine-grained Late-interaction Multi-modal Retrieval, FLMR), qui améliore significativement la récupération de connaissances dans le cadre RA-VQA. FLMR surmonte deux limites majeures du module de récupération dans RA-VQA : (1) les représentations d’image obtenues par transformation image-texte peuvent être incomplètes ou inexactes, et (2) les scores de pertinence entre les requêtes et les documents sont calculés à partir d’embeddings unidimensionnels, qui peuvent être insensibles à des nuances de pertinence plus fines. FLMR surmonte ces limites en obtenant des représentations d’image complémentaires à celles issues de la transformation image-texte, en alignant un modèle visuel avec un rétenteur basé sur le texte existant via un réseau d’alignement simple. De plus, FLMR encode les images et les questions à l’aide d’embeddings multidimensionnels afin de capturer une pertinence plus fine entre les requêtes et les documents. FLMR améliore significativement le score PRRecall@5 du module de récupération original de RA-VQA d’environ 8 %. Enfin, en intégrant deux modèles multimodaux/langagiers de pointe à RA-VQA, nous atteignons un score de VQA d’environ 61 % sur le jeu de données OK-VQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récupération multimodale à interaction tardive à granularité fine pour la réponse aux questions visuelles augmentée par la récupération | Articles | HyperAI