17 天前

基于GPT-3的少样本知识驱动视觉问答的实证研究

Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang
基于GPT-3的少样本知识驱动视觉问答的实证研究
摘要

基于知识的视觉问答(Knowledge-based Visual Question Answering, VQA)旨在回答那些需要外部知识支持、而图像本身无法提供足够信息的问题。现有方法通常采用两步流程:首先从外部知识源中检索相关知识,随后在推理阶段结合所选知识、输入图像和问题进行答案预测。然而,这种两阶段方法可能导致知识与问题之间的不匹配,从而限制了VQA性能的提升。例如,检索到的知识可能包含噪声或与问题无关,且在推理过程中对知识特征重新嵌入时,其语义可能偏离原始知识库(Knowledge Base, KB)中的本意。为应对这一挑战,我们提出PICa(Prompting GPT-3 via Image Captions),一种简洁而高效的方法,通过图像描述(Image Captions)引导GPT-3完成基于知识的视觉问答任务。受GPT-3在知识检索与问答方面强大能力的启发,我们摒弃了以往依赖结构化知识库的范式,转而将GPT-3视为一个隐式且非结构化的知识库,能够联合获取并处理与任务相关的知识。具体而言,我们首先将图像转化为GPT-3可理解的描述文本(或标签),然后仅通过提供少量上下文中的VQA示例,即可在少样本(few-shot)设定下适配GPT-3完成视觉问答任务。为进一步提升性能,我们系统性地探究了两个关键问题:(i)何种文本格式能更有效地描述图像内容;(ii)如何更优地选择与使用上下文示例。PICa首次实现了GPT-3在多模态任务中的应用。仅使用16个示例,PICa在OK-VQA数据集上即超越了监督学习的最先进方法,绝对性能提升达+8.6个百分点。此外,我们在VQAv2数据集上对PICa进行了基准测试,结果表明其在少样本设置下仍展现出良好的性能表现。