
摘要
自监督方法在图像分类方面已经显著缩小了与端到端监督学习之间的差距。然而,在人类动作视频中,由于外观和运动都是重要的变化因素,这一差距仍然显著存在。造成这种情况的一个关键原因是,许多自监督对比学习方法需要采样相似的视频片段对,而目前这种采样通常较为保守,以避免误报。一种常见的假设是,相似的片段仅在同一视频内时间上接近时才会出现,这导致了运动相似性的样本不足。为了解决这一问题,我们提出了一种基于聚类的自监督对比学习方法——SLIC(Self-supervised Learning with Iterative Clustering),用于人类动作视频。我们的主要贡献在于通过迭代聚类来分组相似的视频实例,从而改进传统的视频内正样本采样方法。这使得我们的方法能够利用聚类分配生成的伪标签来采样更难的正样本和负样本。SLIC 在 UCF101 数据集上的 top-1 回忆率比最先进的视频检索基线高出 15.4%,并且在直接迁移到 HMDB51 数据集时也提高了 5.7% 的 top-1 回忆率。在进行端到端微调以进行动作分类时,SLIC 在 UCF101 数据集上达到了 83.2% 的 top-1 准确率(提高了 0.8%),在 HMDB51 数据集上则达到了 54.5% 的 top-1 准确率(提高了 1.6%)。此外,在 Kinetics400 数据集上经过自监督预训练后,SLIC 在动作分类任务中的表现也与当前最先进的方法相当。