16 天前

细粒度晚期交互多模态检索用于检索增强型视觉问答

Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
细粒度晚期交互多模态检索用于检索增强型视觉问答
摘要

基于知识的视觉问答(Knowledge-based Visual Question Answering, KB-VQA)要求视觉问答系统利用外部知识库中的知识来回答与视觉内容相关的问题。检索增强型视觉问答(Retrieval-Augmented Visual Question Answering, RA-VQA)是一种应对KB-VQA的有效框架,其首先通过密集段落检索(Dense Passage Retrieval, DPR)获取相关文档,再基于这些文档回答问题。本文提出了一种细粒度后期交互多模态检索方法(Fine-grained Late-interaction Multi-modal Retrieval, FLMR),显著提升了RA-VQA中的知识检索性能。FLMR针对RA-VQA检索模块存在的两个主要局限进行了改进:(1)通过图像到文本转换获得的图像表征可能存在不完整或不准确的问题;(2)查询与文档之间的相关性得分仅基于一维嵌入向量计算,难以捕捉更细粒度的相关性。为克服上述问题,FLMR通过一个简单的对齐网络,将视觉模型与现有基于文本的检索器对齐,从而获得能够补充图像到文本转换结果的更高质量图像表征。此外,FLMR采用多维嵌入对图像和问题进行编码,以更精细地捕捉查询与文档之间的语义相关性。实验结果表明,FLMR相较于原始RA-VQA检索器,在PRRecall@5指标上提升了约8%。最后,我们将RA-VQA框架与两种当前最先进的大型多模态/语言模型相结合,在OK-VQA数据集上实现了约61%的VQA得分,显著提升了整体性能。

细粒度晚期交互多模态检索用于检索增强型视觉问答 | 最新论文 | HyperAI超神经