Command Palette
Search for a command to run...
基于单模态教师的多模态学习优化
基于单模态教师的多模态学习优化
Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao
摘要
学习多模态表征是实现真实世界机器人应用的关键步骤,为此已开发出多种多模态融合模型。然而,我们观察到,现有模型大多基于联合训练目标,常常在各模态的表征学习上表现不佳。我们将这一现象称为“模态失效”(Modality Failure),并提出假设:模态间的不平衡性以及融合方法中隐含的共同目标偏差,限制了各模态编码器的充分特征学习。为此,我们提出一种新型多模态学习方法——单模态教师(Uni-Modal Teacher),该方法结合融合目标与单模态知识蒸馏,以缓解模态失效问题。实验表明,该方法不仅显著提升了各模态的表征能力,还整体增强了多模态任务的性能。该方法具有良好的泛化能力,可有效应用于大多数现有的多模态融合框架。在VGGSound音频-视觉分类任务中,我们取得了超过3%的性能提升;同时,在NYU Depth V2 RGB-D图像分割任务中也实现了性能优化。