11 天前
DropMAE:通过空间注意力丢弃的掩码自编码器学习用于时间匹配任务的表示
Qiangqiang Wu, Tianyu Yang, Ziquan Liu, Wei Lin, Baoyuan Wu, Antoni B. Chan

摘要
本文研究了掩码自编码器(Masked Autoencoder, MAE)在视频预训练中对多种基于时间匹配的下游任务的适用性,包括物体级跟踪任务(如视频目标跟踪 VOT 和视频目标分割 VOS)、自监督视觉对应关系学习、密集跟踪任务(如光流估计与长时点跟踪)以及三维点云跟踪。具体而言,本研究旨在探索一种通用的表征学习方法,以提升各类下游跟踪任务中的时间匹配能力。为实现这一目标,我们首先发现,一种简单的 MAE 扩展方法——即在视频中随机掩码帧块并重建帧内像素——在重建过程中严重依赖空间线索,而忽视了帧间的时间关联性,从而导致时间匹配表征性能欠佳。为缓解该问题,我们提出了一种名为 DropMAE 的新方法,该方法在帧重建过程中自适应地执行空间注意力丢弃(spatial-attention dropout),以促进视频中时间对应关系的学习。通过 DropMAE,我们获得了若干重要发现:1)DropMAE 是一种强大且高效的时序匹配学习器,在基于匹配的任务上,其微调性能优于基于 ImageNet 预训练的 MAE,且预训练速度提升两倍;2)DropMAE 在多种不同类型的跟踪任务中均表现出色,涵盖物体级匹配任务(如 VOT 和 VOS)、密集跟踪任务(如光流估计与任意点跟踪 TAP),甚至在不同模态的点云数据上实现三维跟踪任务。由于此前尚无针对这些下游任务的 ViT 基础跟踪器,我们构建了适用于各类下游跟踪任务的 ViT 架构跟踪器。值得注意的是,我们预训练的 DropMAE 模型可直接加载至这些 ViT 基础跟踪器中进行微调,无需任何额外修改。在六个下游跟踪任务上的实验结果充分验证了 DropMAE 作为通用预训练表征在多样化跟踪任务中的有效性与普适性。