17 天前

用于多模态与多任务密集图像预测的通道交换网络

Yikai Wang, Fuchun Sun, Wenbing Huang, Fengxiang He, Dacheng Tao
用于多模态与多任务密集图像预测的通道交换网络
摘要

多模态融合与多任务学习是机器学习领域的两个关键研究方向。尽管近年来取得了丰硕进展,但现有方法在应对同一挑战时仍显脆弱——即如何在整合不同模态(或任务)间共性信息的同时,有效保留各模态(或任务)特有的特征模式,这一问题始终难以兼顾。此外,尽管多模态融合与多任务学习在本质上密切相关,但以往研究很少将其纳入统一的方法论框架中进行联合探索。本文提出一种自适应、无参数的通道交换网络(Channel-Exchanging Network, CEN),该方法在多模态与多任务密集图像预测任务中均具有广泛适用性。其核心思想是:在不同模态的子网络之间自适应地交换通道。具体而言,通道交换过程由各通道在训练过程中通过批量归一化(Batch Normalization, BN)缩放因子的幅值所衡量的通道重要性自动引导,实现自我指导的动态融合。为验证CEN在密集图像预测任务中的有效性,本文在四种不同场景下进行了实验:多模态融合、循环多模态融合、多任务学习以及多模态多任务学习。在基于RGB-D数据的语义分割任务和基于多领域输入的图像翻译任务上,大量实验结果表明,CEN在性能上显著优于当前最先进的方法。此外,本文还开展了详尽的消融研究,充分验证了所提出各组件的有效性与贡献。相关代码已开源,地址为:https://github.com/yikaiw/CEN。