
摘要
近年来,深度多模态学习取得了显著进展。然而,现有的融合方法本质上是静态的,即对多模态输入采用相同的计算流程进行处理与融合,未能考虑不同多模态数据所呈现出的多样化计算需求。为此,本文提出了一种动态多模态融合方法(Dynamic Multimodal Fusion, DynMM),该方法能够在推理过程中自适应地融合多模态数据,并根据输入数据生成依赖于数据的前向传播路径。为此,我们设计了一种门控函数(gating function),能够基于多模态特征实时做出模态级或融合级的决策;同时引入一种资源感知的损失函数(resource-aware loss function),以促进计算效率的提升。在多种多模态任务上的实验结果表明,该方法具有高效性与广泛的适用性。例如,在CMU-MOSEI情感分析任务中,DynMM相比静态融合方法可将计算成本降低46.5%,同时仅带来可忽略的精度损失;在NYU Depth V2语义分割任务中,其在计算量减少超过21%的情况下,显著提升了分割性能。我们认为,本方法为动态多模态网络设计开辟了新的研究方向,具有在众多多模态任务中广泛应用的潜力。