18 天前

预训练视觉与语言模型能否回答视觉信息查询问题?

Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang
预训练视觉与语言模型能否回答视觉信息查询问题?
摘要

预训练的视觉-语言模型在图像与文本相关任务中已展现出当前最先进的性能,涵盖视觉问答(Visual Question Answering, VQA)等典型场景。然而,这些模型是否具备回答不仅依赖视觉内容理解,更需依赖知识密集型与信息检索型推理的问题,仍不明确。在本研究中,我们提出了InfoSeek——一个专为信息寻求类问题设计的视觉问答数据集,其问题无法仅通过常识知识回答。基于InfoSeek,我们系统评估了多种预训练视觉问答模型,并深入分析其性能特征。研究结果表明,当前最先进的多模态预训练模型(如PaLI-X、BLIP2等)在应对视觉信息寻求类问题时仍面临显著挑战;然而,通过在InfoSeek数据集上进行微调,模型能够有效调用其预训练阶段所学习到的细粒度知识,从而提升回答能力。此外,我们进一步证明,精准的视觉实体识别可通过检索相关文档来显著提升模型在InfoSeek上的表现,表明该任务仍存在巨大的优化空间。