4 个月前
掩码运动编码用于自监督视频表征学习
Xinyu Sun; Peihao Chen; Liangwei Chen; Changhao Li; Thomas H. Li; Mingkui Tan; Chuang Gan

摘要
如何从未标记的视频中学习判别性的视频表示是一个具有挑战性但至关重要的问题,对于视频分析而言尤为如此。最新的尝试旨在通过预测被遮掩区域的外观内容来学习表示模型。然而,仅仅遮掩和恢复外观内容可能不足以建模时间线索,因为这些内容可以从单个帧中轻松重建。为了解决这一局限性,我们提出了遮掩运动编码(Masked Motion Encoding, MME),这是一种新的预训练范式,通过重建外观和运动信息来探索时间线索。在MME中,我们重点关注两个关键挑战以提高表示性能:1)如何有效地表示跨越多个帧的潜在长期运动;2)如何从稀疏采样的视频中获得细粒度的时间线索。受人类能够通过追踪物体的位置变化和形状变化来识别动作这一事实的启发,我们提出在被遮掩区域重建一条代表这两种变化的运动轨迹。此外,鉴于输入视频是稀疏采样的,我们强制模型在空间和时间维度上重建密集的运动轨迹。经过我们的MME范式预训练后,该模型能够预测长期和细粒度的运动细节。代码可在https://github.com/XinyuSun/MME 获取。