17 天前

自监督视频Transformer

Kanchana Ranasinghe, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Michael Ryoo

摘要

本文提出了一种基于无标签视频数据的自监督训练方法，用于视频Transformer模型。给定一段视频，我们通过调整空间尺寸和帧率，生成局部与全局的时空视图。所提出的自监督目标旨在使同一视频的不同视图在特征层面保持一致，从而对动作的时空变化具有不变性。据我们所知，该方法是首个无需依赖负样本或专用记忆库的自监督视频Transformer（SVT）训练范式。此外，得益于Transformer架构的灵活性，SVT能够在单一模型中实现慢-快视频处理，通过动态调整位置编码来适应不同时间尺度，并支持在时空维度上建模长期依赖关系。实验表明，该方法在四个动作识别基准数据集（Kinetics-400、UCF-101、HMDB-51 和 SSv2）上均表现优异，且在小批量训练下仍能快速收敛。代码已开源：https://git.io/J1juJ