
摘要
双线性模型为视觉问答(Visual Question Answering, VQA)任务中信息的混合与融合提供了一个吸引人的框架。它们有助于学习问题含义与图像中的视觉概念之间的高层次关联,但存在巨大的维度问题。我们引入了MUTAN,这是一种基于多模态张量的Tucker分解方法,用于高效地参数化视觉和文本表示之间的双线性交互。除了Tucker框架外,我们还设计了一种低秩矩阵分解方法,以显式限制交互秩。通过MUTAN,我们在控制合并方案复杂度的同时,保持了良好的可解释融合关系。我们展示了MUTAN模型如何泛化一些最新的VQA架构,并提供了当前最佳的结果。