8 天前

MMTM:用于CNN融合的多模态迁移模块

Hamid Reza Vaezi Joze, Amirreza Shaban, Michael L. Iuzzolino, Kazuhito Koishida
MMTM:用于CNN融合的多模态迁移模块
摘要

在晚期融合(late fusion)方法中,各模态分别通过独立的单模态卷积神经网络(CNN)流进行处理,最终在输出阶段对各模态的得分进行融合。由于其结构简单,晚期融合至今仍是众多前沿多模态应用中的主流方法。本文提出一种简单的神经网络模块,用于在卷积神经网络中有效利用多模态知识。该模块名为多模态迁移模块(Multimodal Transfer Module, MMTM),可灵活嵌入特征层次的不同层级,实现渐进式的模态融合。MMTM通过压缩(squeeze)与激励(excitation)操作,利用多模态之间的互补信息,对每个CNN流中的通道级特征进行重新校准。与现有的中间融合方法相比,所提模块可适用于具有不同空间维度的卷积层中的特征模态融合。此外,该方法的另一优势在于,其可几乎不改变原有单模态分支网络结构地进行添加,从而允许各分支使用已有的预训练权重进行初始化。实验结果表明,所提出的框架显著提升了知名多模态网络的识别准确率。在涵盖动态手势识别、语音增强以及基于RGB图像与骨骼关节点的动作识别等任务的四个数据集上,本方法均取得了当前最优或具有竞争力的性能表现。

MMTM:用于CNN融合的多模态迁移模块 | 最新论文 | HyperAI超神经