6 个月前

摘要

我们研究在一种特殊设定下的视觉问答任务：答案需从一组包含相关与无关图像的上下文图像池中挖掘得出。在此设定下，模型首先必须从图像池中检索出与问题相关的图像，然后基于这些检索到的图像回答问题。我们将这一问题称为基于检索的视觉问答（Retrieval-based Visual Question Answering，简称 RETVQA）。与传统视觉问答（VQA）任务不同——后者通常只需基于单张相关图像作答——RETVQA更具挑战性，因为它要求模型在包含大量异构图像的复杂上下文中完成检索与推理。为解决 RETVQA 任务，我们提出了一种统一的多图像 BART 模型（Multi Image BART，简称 MI-BART），该模型结合我们设计的相关性编码器，能够接收问题和检索到的多幅图像，并生成自然流畅的自由形式答案。此外，我们构建了该领域目前规模最大的数据集——RETVQA，其具有以下显著特点：支持多图像输入并强制执行检索机制；问题不依赖于图像元数据，适用于异构图像池；答案类型涵盖以分类为导向的封闭式回答与开放式生成式回答的混合形式。在所提出的 RETVQA 数据集上，我们提出的框架在准确率上达到 76.5%，在答案流畅性上达到 79.3%。同时，在公开可用的 WebQA 数据集的图像子集上，该框架在准确率和流畅性两项指标上分别优于当前最先进方法 4.9% 和 11.8%。

源 PDF