
摘要
外部知识视觉问答(OK-VQA)是一项具有挑战性的视觉问答任务,要求模型从外部知识中检索相关信息以回答关于图像的问题。现有的OK-VQA系统通常采用密集段落检索(Dense Passage Retrieval, DPR)技术,从外部知识库(如维基百科)中检索相关文档,但这类系统通常将DPR与答案生成模块分别训练,导致整体性能受限。为此,我们提出一种联合训练框架,将可微分的DPR与答案生成模块深度融合,实现端到端的联合训练。实验结果表明,与采用强DPR检索能力的最新OK-VQA系统相比,我们的方法在性能上显著优于后者。此外,我们还引入了新的诊断性评估指标,用于分析检索与生成模块之间的交互机制。得益于模型强大的检索能力,我们在训练过程中显著减少了所需检索文档的数量,从而在提升答案质量的同时,大幅降低了训练所需的计算开销。