17 天前
Prophet:通过互补答案启发式方法提示大语言模型以实现基于知识的视觉问答
Yu, Zhou, Ouyang, Xuecheng, Shao, Zhenwei, Wang, Meng, Yu, Jun

摘要
基于知识的视觉问答(Knowledge-based Visual Question Answering, VQA)需要超越图像本身的外部知识来回答问题。早期研究通常从显式的知识库(Knowledge Base, KB)中检索所需知识,但这一过程常常引入与问题无关的信息,从而限制了模型的性能。近期工作转而利用强大的大语言模型(Large Language Model, LLM)作为隐式知识引擎,以获取回答问题所需的必要知识。尽管这些方法取得了令人鼓舞的结果,但我们认为,它们并未充分激活盲视LLM的潜力,因为所提供的文本输入不足以完整描述回答问题所必需的视觉信息。在本文中,我们提出Prophet——一个概念简洁、灵活且通用的框架,旨在通过答案启发式信息来引导LLM进行基于知识的视觉问答。具体而言,我们首先在一个特定的知识型VQA数据集上训练一个基础的VQA模型,且不依赖外部知识。随后,从该VQA模型中提取两类互补的答案启发式信息:答案候选(answer candidates)和答案感知样本(answer-aware examples)。这两类启发式信息被联合编码为结构化的提示(prompt),以帮助LLM更好地理解图像与问题之间的关联,从而生成更准确的答案。通过结合当前最先进的LLM——GPT-3,Prophet在四个具有挑战性的知识型VQA数据集上显著优于现有的最先进方法。Prophet具有高度通用性,可与不同类型的VQA模型(包括判别式与生成式模型)以及不同类型的LLM(包括商业与开源模型)灵活组合使用。此外,Prophet还可与现代大型多模态模型在不同阶段集成,形成名为Prophet++的增强版本,进一步提升其在知识型VQA任务上的表现能力。