6 个月前

多模态表征

计算机视觉

Elad Amrani Rami Ben-Ari Daniel Rotman Alex Bronstein

摘要

使机器学习模型能够理解并解决现实世界任务的关键因素之一是利用多模态数据。然而，多模态数据的标注过程既困难又成本高昂。近年来，一些自监督多模态方法被提出，通过结合视觉与语言模态，在无需人工标注的情况下学习多模态表示。但这些方法通常忽视了数据中普遍存在的高噪声问题，导致性能未能达到最优。在本研究中，我们表明，多模态数据的噪声估计问题可被转化为一个多模态密度估计任务。基于此，我们提出了一种仅依赖于不同模态之间内在相关性的噪声估计构建模块，用于多模态表示学习。实验表明，该噪声估计方法可广泛集成，并在五个不同基准数据集上实现了与当前最先进方法相当的性能，涵盖两项具有挑战性的多模态任务：视频问答（Video Question Answering）与文本到视频检索（Text-to-Video Retrieval）。此外，我们还提供了理论上的概率误差边界，以支持我们的实验结果，并对失败案例进行了深入分析。代码已开源：https://github.com/elad-amrani/ssml。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Elad Amrani Rami Ben-Ari Daniel Rotman Alex Bronstein

摘要

使机器学习模型能够理解并解决现实世界任务的关键因素之一是利用多模态数据。然而，多模态数据的标注过程既困难又成本高昂。近年来，一些自监督多模态方法被提出，通过结合视觉与语言模态，在无需人工标注的情况下学习多模态表示。但这些方法通常忽视了数据中普遍存在的高噪声问题，导致性能未能达到最优。在本研究中，我们表明，多模态数据的噪声估计问题可被转化为一个多模态密度估计任务。基于此，我们提出了一种仅依赖于不同模态之间内在相关性的噪声估计构建模块，用于多模态表示学习。实验表明，该噪声估计方法可广泛集成，并在五个不同基准数据集上实现了与当前最先进方法相当的性能，涵盖两项具有挑战性的多模态任务：视频问答（Video Question Answering）与文本到视频检索（Text-to-Video Retrieval）。此外，我们还提供了理论上的概率误差边界，以支持我们的实验结果，并对失败案例进行了深入分析。代码已开源：https://github.com/elad-amrani/ssml。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供