2 个月前

面向问题的混合卷积用于视觉问答

Peng Gao; Pan Lu; Hongsheng Li; Shuang Li; Yikang Li; Steven Hoi; Xiaogang Wang

摘要

本文提出了一种新颖的问题引导混合卷积（Question-Guided Hybrid Convolution, QGHC）网络，用于视觉问答（Visual Question Answering, VQA）。大多数现有的先进VQA方法在学习多模态特征时，将神经网络中的高层次文本和视觉特征进行融合，但放弃了视觉空间信息。为了解决这些问题，我们设计了从输入问题生成的问题引导卷积核，这些卷积核在早期阶段与视觉特征进行卷积操作，以捕捉文本和视觉之间的关系。问题引导卷积可以紧密耦合文本和视觉信息，但在学习卷积核时会引入更多参数。为此，我们采用了由问题无关卷积核和问题相关卷积核组成的组卷积（group convolution），以减少参数量并缓解过拟合现象。混合卷积能够在较少的参数下生成具有区分性的多模态特征。所提出的这种方法还可以与现有的双线性池化融合和基于注意力机制的VQA方法互补。通过与这些方法结合，我们的方法可以进一步提升性能。在公共VQA数据集上的大量实验验证了QGHC的有效性。