17 天前
基于知识的视觉问答的一个简单基线
Alexandros Xenos, Themos Stafylakis, Ioannis Patras, Georgios Tzimiropoulos

摘要
本文研究的是基于知识的视觉问答(Knowledge-Based Visual Question Answering, KB-VQA)问题。近期的研究强调,为了有效回答需要外部知识支撑的问题,必须同时整合显式知识(通过外部数据库获取)与隐式知识(通过大语言模型,LLM)两种信息源。然而,这类方法普遍存在一个共同局限:其系统架构通常较为复杂,且严重依赖于调用GPT-3的API接口。本文的主要贡献在于提出了一种更为简洁、易于复现的全新流程。该方法的核心思想是:通过使用富含问题相关信息的图像描述(question-informative captions)作为上下文信息,高效地引导LLaMA(1和2版本)进行上下文学习(in-context learning)。与现有方法不同,我们的方法无需训练,不依赖外部数据库或API接口,却在OK-VQA和A-OK-VQA两个基准数据集上取得了当前最优的准确率。最后,我们进行了多项消融实验,深入分析了方法中各项关键设计的作用。相关代码已公开,地址为:https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA。