
摘要
近年来,基于预训练任务的方法在自监督视频特征学习中不断涌现。同时,对比学习方法也表现出良好的性能。通常,新方法声称能够捕捉到“更好”的时间信息,从而超越先前的方法。然而,这些方法之间存在设置差异,很难得出哪一种更好的结论。如果这些方法尽可能接近其性能极限进行比较,则结论将更具说服力。在本文中,我们从一个预训练任务基线出发,探讨通过将其与对比学习、数据预处理和数据增强相结合,能够达到何种程度的改进。通过广泛的实验,我们找到了一个合适的设置,在该设置下可以显著提升基线性能,表明联合优化框架能够同时增强预训练任务和对比学习的效果。我们将这种联合优化框架称为预训练-对比学习(Pretext-Contrastive Learning, PCL)。另外两个预训练任务基线用于验证PCL的有效性。在相同的训练方式下,我们可以轻松超越当前最先进的方法,展示了我们提出的方案的有效性和普适性。将PCL作为一种标准的训练策略应用于自监督视频特征学习的其他工作中也非常方便。