
摘要
在本文中,我们提出了一种从视频中的原始时空信号中学习视觉表示的方法。我们的表示是在没有语义标签监督的情况下学习的。我们将该方法表述为一个无监督的序列验证任务,即确定视频中的一系列帧是否处于正确的时序排列。通过这个简单的任务且无需语义标签,我们使用卷积神经网络(CNN)学习到了一种强大的视觉表示。这种表示包含了与监督图像数据集(如ImageNet)所学信息互补的内容。定性结果显示,我们的方法能够捕捉到随时间变化的信息,例如人体姿态。当用于动作识别的预训练时,我们的方法在UCF101和HMDB51等基准数据集上显著优于不使用外部数据的学习方法。为了展示其对人体姿态的敏感性,我们在FLIC和MPII数据集上的姿态估计结果具有竞争力,甚至优于那些使用更多监督的方法。此外,我们的方法可以与监督表示结合使用,以进一步提高准确性。