
摘要
本文旨在通过视频进行空间-时间嵌入的自监督学习,适用于人体动作识别。我们做出了三项贡献:首先,引入了密集预测编码(Dense Predictive Coding, DPC)框架,用于视频的自监督表示学习。该框架通过递归预测未来表示来学习空间-时间块的密集编码;其次,提出了一种课程训练方案,逐步减少时间上下文以预测更远的未来。这促使模型仅编码缓慢变化的空间-时间信号,从而生成具有语义意义的表示;最后,我们通过首先在Kinetics-400数据集上使用自监督学习训练DPC模型,然后在下游任务(即动作识别)中微调表示来评估该方法。在单一流(仅RGB)的情况下,DPC预训练表示在UCF101(75.7% top1准确率)和HMDB51(35.7% top1准确率)上均达到了最先进的自监督性能,显著优于所有先前的学习方法,并接近基于ImageNet预训练的基线模型的性能。