17 天前

VLC-BERT:融合情境化常识知识的视觉问答

Sahithya Ravi, Aditya Chinchure, Leonid Sigal, Renjie Liao, Vered Shwartz
VLC-BERT:融合情境化常识知识的视觉问答
摘要

近年来,学术界对解决需要模型超越图像内容本身进行推理的视觉问答(Visual Question Answering, VQA)任务的兴趣日益增长。本文聚焦于需要常识推理的问答问题。与以往通过静态知识库注入外部知识的方法不同,我们探索利用上下文感知的常识知识,采用已基于人工标注知识库训练的常识推理模型——Commonsense Transformer(COMET),来增强模型理解能力。为此,我们提出一种新方法,能够在预训练的视觉-语言-常识联合模型VLC-BERT中,同步生成、筛选并编码外部常识知识,结合视觉与文本线索进行联合建模。在知识密集型的OK-VQA与A-OKVQA数据集上的实验表明,VLC-BERT在性能上优于依赖静态知识库的现有模型。此外,通过深入分析,我们进一步揭示了哪些类型的问答问题能够从COMET提供的上下文化常识知识中获益,而哪些问题则难以从中受益。