17 天前
零样本视觉问答中的知识图谱应用
Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan, Huajun Chen

摘要
将外部知识融入视觉问答(Visual Question Answering, VQA)已成为一项至关重要的实际需求。现有方法大多采用流水线式架构,其不同模块分别负责知识匹配与提取、特征学习等任务。然而,这类流水线方法在任一模块性能不佳时均会受到影响,导致误差传播,进而造成整体性能下降。此外,大多数现有方法忽视了答案偏置问题——在真实应用场景中,许多答案在训练阶段从未出现过(即“未见答案”)。为弥补上述不足,本文提出一种基于知识图谱与掩码学习机制的零样本视觉问答(Zero-shot VQA)算法,以更有效地融合外部知识,并针对F-VQA数据集提出了新的基于答案的零样本VQA划分方案。实验结果表明,所提方法在处理未见答案的零样本VQA任务中达到了当前最优性能,同时显著提升了现有端到端模型在常规F-VQA任务上的表现。