2 个月前
多模态残差学习在视觉问答中的应用
Jin-Hwa Kim; Sang-Woo Lee; Dong-Hyun Kwak; Min-Oh Heo; Jeonghee Kim; Jung-Woo Ha; Byoung-Tak Zhang

摘要
深度神经网络通过各种方法不断推动图像识别任务的最先进水平。然而,这些方法在多模态应用方面仍存在局限性。本文提出了一种用于视觉问答多模态残差学习的多模态残差网络(Multimodal Residual Networks, MRN),该网络扩展了深度残差学习的思想。与深度残差学习不同,MRN能够有效地从视觉和语言信息中学习联合表示。其主要思想是利用逐元素乘法进行联合残差映射,借鉴了近期研究中注意力模型的残差学习方法。基于我们的研究,我们探索了由多模态引入的各种替代模型。我们在Visual QA数据集上取得了开放性和多项选择任务的最先进结果。此外,我们还引入了一种新颖的方法,使用反向传播算法可视化每个学习块的联合表示的注意力效果,即使视觉特征在没有空间信息的情况下被压缩。