HyperAIHyperAI
il y a 16 jours

Récupération multimodale à interaction tardive à granularité fine pour la réponse aux questions visuelles augmentée par la récupération

Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
Récupération multimodale à interaction tardive à granularité fine pour la réponse aux questions visuelles augmentée par la récupération
Résumé

La réponse aux questions visuelles fondée sur les connaissances (KB-VQA) exige que les systèmes de réponse aux questions visuelles exploitent des connaissances provenant de bases de connaissances externes afin de répondre à des questions ancrées visuellement. La réponse aux questions visuelles augmentée par la récupération (RA-VQA), un cadre puissant pour aborder le KB-VQA, commence par récupérer des documents pertinents via une récupération de passages denses (Dense Passage Retrieval, DPR), puis utilise ces documents pour formuler des réponses. Ce papier propose une méthode de récupération multimodale à interaction tardive fine (Fine-grained Late-interaction Multi-modal Retrieval, FLMR), qui améliore significativement la récupération de connaissances dans le cadre RA-VQA. FLMR surmonte deux limites majeures du module de récupération dans RA-VQA : (1) les représentations d’image obtenues par transformation image-texte peuvent être incomplètes ou inexactes, et (2) les scores de pertinence entre les requêtes et les documents sont calculés à partir d’embeddings unidimensionnels, qui peuvent être insensibles à des nuances de pertinence plus fines. FLMR surmonte ces limites en obtenant des représentations d’image complémentaires à celles issues de la transformation image-texte, en alignant un modèle visuel avec un rétenteur basé sur le texte existant via un réseau d’alignement simple. De plus, FLMR encode les images et les questions à l’aide d’embeddings multidimensionnels afin de capturer une pertinence plus fine entre les requêtes et les documents. FLMR améliore significativement le score PRRecall@5 du module de récupération original de RA-VQA d’environ 8 %. Enfin, en intégrant deux modèles multimodaux/langagiers de pointe à RA-VQA, nous atteignons un score de VQA d’environ 61 % sur le jeu de données OK-VQA.

Récupération multimodale à interaction tardive à granularité fine pour la réponse aux questions visuelles augmentée par la récupération | Articles de recherche récents | HyperAI