11 天前

PromptCap:基于提示引导的任务感知图像描述生成

Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A Smith, Jiebo Luo
PromptCap:基于提示引导的任务感知图像描述生成
摘要

基于知识的视觉问答(Knowledge-based Visual Question Answering, VQA)涉及需要超出图像本身信息的外部世界知识才能正确回答的问题。大型语言模型(Language Models, LMs),如GPT-3,在该任务中尤为有效,因其具备强大的知识检索与推理能力。为使语言模型能够理解图像,先前的研究通常采用图像描述生成模型(captioning model)将图像转换为文本。然而,在用单一描述句总结图像时,往往难以明确指定应描述哪些视觉实体,导致通用图像描述常遗漏对语言模型正确回答视觉问题至关重要的视觉细节。为应对这一挑战,我们提出PromptCap(Prompt引导的图像描述生成模型),一种专为提升图像与黑箱语言模型之间连接效果而设计的描述生成模型。与通用描述不同,PromptCap通过自然语言提示(prompt)来控制生成描述中所包含的视觉实体。该提示中包含一个旨在帮助回答的问题,从而引导模型聚焦于与问题相关的关键视觉信息。为避免额外的人工标注,PromptCap通过结合GPT-3生成的示例与现有数据集进行训练。我们在现有VQA流水线中验证了PromptCap的有效性:该流水线利用GPT-3根据图像描述进行视觉问答。实验结果表明,PromptCap显著优于传统通用描述,在基于知识的VQA任务上达到当前最优性能——在OK-VQA数据集上达到60.4%的准确率,在A-OKVQA数据集上达到59.6%。此外,在WebQA上的零样本(zero-shot)测试结果表明,PromptCap在未见过的领域中也表现出良好的泛化能力。

PromptCap:基于提示引导的任务感知图像描述生成 | 最新论文 | HyperAI超神经