19 天前

基于非对称多层融合的深度多模态特征表示学习

Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao
基于非对称多层融合的深度多模态特征表示学习
摘要

我们提出了一种紧凑且高效的多模态特征融合框架,能够在单一网络中实现多层次的多模态特征融合。该框架包含两种创新的融合机制。首先,与现有方法需要为不同模态配置独立编码器不同,我们验证了仅通过在编码器中保留模态特定的批量归一化(batch normalization)层,即可在共享的单一网络中学习多模态特征,从而实现通过联合特征表示学习进行隐式融合。其次,我们提出了一种双向多层融合机制,使多模态特征能够以渐进方式被有效利用。为充分发挥该机制的优势,我们引入了两种非对称融合操作——通道混洗(channel shuffle)与像素位移(pixel shift),它们分别针对不同的融合方向学习差异化的融合特征。这两种操作均无需额外参数,能够增强跨通道的多模态特征交互,同时提升通道内部的空间特征区分能力。我们在语义分割与图像翻译任务上进行了大量实验,基于三个涵盖多种模态的公开数据集进行验证。实验结果表明,所提出的框架具有良好的通用性与紧凑性,性能优于当前最先进的多模态融合方法。

基于非对称多层融合的深度多模态特征表示学习 | 论文 | HyperAI超神经