2 个月前
通过跨模态音频-视频聚类实现自监督学习
Humam Alwassel; Dhruv Mahajan; Bruno Korbar; Lorenzo Torresani; Bernard Ghanem; Du Tran

摘要
视觉和听觉模态高度相关,但它们包含不同的信息。这种强相关性使得可以从一个模态中以较高的准确性预测另一个模态的语义成为可能。它们之间的内在差异使得跨模态预测相比单模态内的学习,成为自监督学习视频和音频表示的一个潜在更有价值的预训练任务。基于这一直觉,我们提出了一种新的自监督方法——跨模态深度聚类(Cross-Modal Deep Clustering, XDC),该方法利用在一个模态(例如听觉)中的无监督聚类作为另一个模态(例如视觉)的监督信号。这种跨模态的监督有助于XDC利用两个模态之间的语义相关性和差异性。我们的实验表明,XDC在单模态聚类和其他多模态变体中表现优异。XDC在多个视频和音频基准测试中达到了自监督方法的最先进水平。尤为重要的是,我们的视频模型在大规模未标注数据上进行预训练后,在HMDB51和UCF101数据集上的动作识别任务中显著优于在ImageNet和Kinetics数据集上进行完全监督预训练的相同模型。据我们所知,XDC是首个在同一架构下,在动作识别任务中超越大规模完全监督预训练的自监督学习方法。