17 天前

VideoMoCo:基于时序对抗样本的对比视频表征学习

Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu
VideoMoCo:基于时序对抗样本的对比视频表征学习
摘要

MoCo 在无监督图像表征学习中表现优异。本文提出 VideoMoCo,用于无监督视频表征学习。给定一个视频序列作为输入样本,我们从两个方面改进了 MoCo 的时序特征表示能力。首先,我们引入一个生成器,从该样本中在时间维度上随机丢弃若干帧;随后,通过训练判别器,使其在不同帧被丢弃的情况下仍能编码出相似的特征表示。在对抗性学习的训练过程中,通过自适应地丢弃不同帧,我们对输入样本进行数据增强,从而训练出具备时序鲁棒性的编码器。其次,我们在计算对比损失时,引入时间衰减机制来建模记忆队列中关键帧的衰减效应。由于动量编码器在关键帧入队后才更新,当使用当前输入样本进行对比学习时,队列中已有关键帧的表征能力会随之下降。这种衰减效应通过时间衰减机制体现,使模型更关注队列中近期的关键帧,从而提升对当前输入的响应能力。由此,我们无需人为设计预训练任务,即可将 MoCo 有效拓展至视频表征学习。通过增强编码器的时序鲁棒性并建模关键帧的时间衰减特性,VideoMoCo 在对比学习框架下显著提升了 MoCo 的时序建模能力。在 UCF101 和 HMDB51 等基准数据集上的实验结果表明,VideoMoCo 已成为当前最先进的无监督视频表征学习方法。

VideoMoCo:基于时序对抗样本的对比视频表征学习 | 最新论文 | HyperAI超神经