18 天前

预训练视觉与语言模型能否回答视觉信息查询问题？

Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang

摘要

预训练的视觉-语言模型在图像与文本相关任务中已展现出当前最先进的性能，涵盖视觉问答（Visual Question Answering, VQA）等典型场景。然而，这些模型是否具备回答不仅依赖视觉内容理解，更需依赖知识密集型与信息检索型推理的问题，仍不明确。在本研究中，我们提出了InfoSeek——一个专为信息寻求类问题设计的视觉问答数据集，其问题无法仅通过常识知识回答。基于InfoSeek，我们系统评估了多种预训练视觉问答模型，并深入分析其性能特征。研究结果表明，当前最先进的多模态预训练模型（如PaLI-X、BLIP2等）在应对视觉信息寻求类问题时仍面临显著挑战；然而，通过在InfoSeek数据集上进行微调，模型能够有效调用其预训练阶段所学习到的细粒度知识，从而提升回答能力。此外，我们进一步证明，精准的视觉实体识别可通过检索相关文档来显著提升模型在InfoSeek上的表现，表明该任务仍存在巨大的优化空间。