HyperAIHyperAI

Command Palette

Search for a command to run...

基于单模态教师的多模态学习优化

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

摘要

学习多模态表征是实现真实世界机器人应用的关键步骤,为此已开发出多种多模态融合模型。然而,我们观察到,现有模型大多基于联合训练目标,常常在各模态的表征学习上表现不佳。我们将这一现象称为“模态失效”(Modality Failure),并提出假设:模态间的不平衡性以及融合方法中隐含的共同目标偏差,限制了各模态编码器的充分特征学习。为此,我们提出一种新型多模态学习方法——单模态教师(Uni-Modal Teacher),该方法结合融合目标与单模态知识蒸馏,以缓解模态失效问题。实验表明,该方法不仅显著提升了各模态的表征能力,还整体增强了多模态任务的性能。该方法具有良好的泛化能力,可有效应用于大多数现有的多模态融合框架。在VGGSound音频-视觉分类任务中,我们取得了超过3%的性能提升;同时,在NYU Depth V2 RGB-D图像分割任务中也实现了性能优化。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供