2 个月前

即插即用VQA:通过结合大型预训练模型实现零样本VQA

Tiong, Anthony Meng Huat ; Li, Junnan ; Li, Boyang ; Savarese, Silvio ; Hoi, Steven C. H.
即插即用VQA:通过结合大型预训练模型实现零样本VQA
摘要

视觉问答(VQA)是视觉与语言推理的标志性任务,在零样本设置下具有挑战性。我们提出了一种模块化的零样本VQA框架——即插即用视觉问答(PNP-VQA)。与大多数现有方法不同,这些方法需要对预训练语言模型(PLMs)进行大量适应以处理视觉模态,而PNP-VQA则无需对PLMs进行额外训练。相反,我们建议使用自然语言和网络解释作为中间表示,将预训练模型连接在一起。首先,我们生成由问题引导的信息丰富的图像描述,然后将这些描述传递给PLM作为回答问题的上下文。PNP-VQA在零样本VQAv2和GQA上超越了端到端训练的基线模型,取得了最先进的结果。在拥有110亿参数的情况下,它在VQAv2上的表现超过了800亿参数的Flamingo模型8.5%。而在使用7.38亿PLM参数时,PNP-VQA在GQA上的表现比使用7.4亿PLM参数的FewVLM模型提高了9.1%。代码已发布在https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa。