HyperAI超神经

摘要

视觉问答（VQA）是视觉与语言推理的标志性任务，在零样本设置下具有挑战性。我们提出了一种模块化的零样本VQA框架——即插即用视觉问答（PNP-VQA）。与大多数现有方法不同，这些方法需要对预训练语言模型（PLMs）进行大量适应以处理视觉模态，而PNP-VQA则无需对PLMs进行额外训练。相反，我们建议使用自然语言和网络解释作为中间表示，将预训练模型连接在一起。首先，我们生成由问题引导的信息丰富的图像描述，然后将这些描述传递给PLM作为回答问题的上下文。PNP-VQA在零样本VQAv2和GQA上超越了端到端训练的基线模型，取得了最先进的结果。在拥有110亿参数的情况下，它在VQAv2上的表现超过了800亿参数的Flamingo模型8.5%。而在使用7.38亿PLM参数时，PNP-VQA在GQA上的表现比使用7.4亿PLM参数的FewVLM模型提高了9.1%。代码已发布在https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa。

摘要

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

摘要

用 AI 构建 AI

HyperAI Newsletters

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

摘要

用 AI 构建 AI

HyperAI Newsletters

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

即插即用VQA：通过结合大型预训练模型实现零样本VQA

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

即插即用VQA：通过结合大型预训练模型实现零样本VQA

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

即插即用VQA：通过结合大型预训练模型实现零样本VQA

Anthony Meng Huat Tiong Junnan Li Boyang Li Silvio Savarese Steven C.H. Hoi

摘要

用 AI 构建 AI

HyperAI Newsletters