8 个月前

多模态表征

计算机视觉

Humam Alwassel; Dhruv Mahajan; Bruno Korbar; Lorenzo Torresani; Bernard Ghanem; Du Tran

摘要

视觉和听觉模态高度相关，但它们包含不同的信息。这种强相关性使得可以从一个模态中以较高的准确性预测另一个模态的语义成为可能。它们之间的内在差异使得跨模态预测相比单模态内的学习，成为自监督学习视频和音频表示的一个潜在更有价值的预训练任务。基于这一直觉，我们提出了一种新的自监督方法——跨模态深度聚类（Cross-Modal Deep Clustering, XDC），该方法利用在一个模态（例如听觉）中的无监督聚类作为另一个模态（例如视觉）的监督信号。这种跨模态的监督有助于XDC利用两个模态之间的语义相关性和差异性。我们的实验表明，XDC在单模态聚类和其他多模态变体中表现优异。XDC在多个视频和音频基准测试中达到了自监督方法的最先进水平。尤为重要的是，我们的视频模型在大规模未标注数据上进行预训练后，在HMDB51和UCF101数据集上的动作识别任务中显著优于在ImageNet和Kinetics数据集上进行完全监督预训练的相同模型。据我们所知，XDC是首个在同一架构下，在动作识别任务中超越大规模完全监督预训练的自监督学习方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Humam Alwassel; Dhruv Mahajan; Bruno Korbar; Lorenzo Torresani; Bernard Ghanem; Du Tran

摘要

视觉和听觉模态高度相关，但它们包含不同的信息。这种强相关性使得可以从一个模态中以较高的准确性预测另一个模态的语义成为可能。它们之间的内在差异使得跨模态预测相比单模态内的学习，成为自监督学习视频和音频表示的一个潜在更有价值的预训练任务。基于这一直觉，我们提出了一种新的自监督方法——跨模态深度聚类（Cross-Modal Deep Clustering, XDC），该方法利用在一个模态（例如听觉）中的无监督聚类作为另一个模态（例如视觉）的监督信号。这种跨模态的监督有助于XDC利用两个模态之间的语义相关性和差异性。我们的实验表明，XDC在单模态聚类和其他多模态变体中表现优异。XDC在多个视频和音频基准测试中达到了自监督方法的最先进水平。尤为重要的是，我们的视频模型在大规模未标注数据上进行预训练后，在HMDB51和UCF101数据集上的动作识别任务中显著优于在ImageNet和Kinetics数据集上进行完全监督预训练的相同模型。据我们所知，XDC是首个在同一架构下，在动作识别任务中超越大规模完全监督预训练的自监督学习方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供