8 个月前

多模态表征

计算机视觉

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

摘要

学习多模态表征是实现真实世界机器人应用的关键步骤，为此已开发出多种多模态融合模型。然而，我们观察到，现有模型大多基于联合训练目标，常常在各模态的表征学习上表现不佳。我们将这一现象称为“模态失效”（Modality Failure），并提出假设：模态间的不平衡性以及融合方法中隐含的共同目标偏差，限制了各模态编码器的充分特征学习。为此，我们提出一种新型多模态学习方法——单模态教师（Uni-Modal Teacher），该方法结合融合目标与单模态知识蒸馏，以缓解模态失效问题。实验表明，该方法不仅显著提升了各模态的表征能力，还整体增强了多模态任务的性能。该方法具有良好的泛化能力，可有效应用于大多数现有的多模态融合框架。在VGGSound音频-视觉分类任务中，我们取得了超过3%的性能提升；同时，在NYU Depth V2 RGB-D图像分割任务中也实现了性能优化。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Chenzhuang Du Tingle Li Yichen Liu Zixin Wen Tianyu Hua Yue Wang Hang Zhao

摘要

学习多模态表征是实现真实世界机器人应用的关键步骤，为此已开发出多种多模态融合模型。然而，我们观察到，现有模型大多基于联合训练目标，常常在各模态的表征学习上表现不佳。我们将这一现象称为“模态失效”（Modality Failure），并提出假设：模态间的不平衡性以及融合方法中隐含的共同目标偏差，限制了各模态编码器的充分特征学习。为此，我们提出一种新型多模态学习方法——单模态教师（Uni-Modal Teacher），该方法结合融合目标与单模态知识蒸馏，以缓解模态失效问题。实验表明，该方法不仅显著提升了各模态的表征能力，还整体增强了多模态任务的性能。该方法具有良好的泛化能力，可有效应用于大多数现有的多模态融合框架。在VGGSound音频-视觉分类任务中，我们取得了超过3%的性能提升；同时，在NYU Depth V2 RGB-D图像分割任务中也实现了性能优化。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供