
摘要
我们探讨了以下问题:通过观看和聆听大量未标注的视频可以学到什么?视频本身包含了一种宝贵但尚未被充分利用的信息来源——视觉流与音频流之间的对应关系。为此,我们引入了一项新颖的“视听对应”(Audio-Visual Correspondence)学习任务,该任务利用了这一信息。研究表明,仅使用原始无约束的视频本身作为监督,从零开始训练视觉和音频网络,不仅能够成功解决这项任务,而且还能生成良好的视觉和音频表示。这些特征在两个声音分类基准测试中达到了新的最先进水平,并且在ImageNet图像分类任务上的表现也与当前最先进的自监督方法相当。此外,我们还展示了该网络能够在两种模态中定位对象,并执行细粒度识别任务。