
摘要
我们提出了一种无需卷积的视频分类方法,该方法完全基于时空维度上的自注意力机制。该方法名为“TimeSformer”,通过将标准Transformer架构拓展至视频领域,直接从帧级图像块序列中实现时空特征的学习。我们的实验研究对比了多种自注意力机制,结果表明,“分治注意力”(divided attention)策略——即在每个网络模块中分别独立应用时间注意力与空间注意力——在所考察的设计方案中取得了最佳的视频分类准确率。尽管采用了全新的架构设计,TimeSformer在多个动作识别基准测试中均达到了当前最优性能,包括在Kinetics-400和Kinetics-600数据集上报告的最佳准确率。此外,与3D卷积网络相比,我们的模型训练速度更快,可在仅小幅降低准确率的情况下实现显著更高的测试效率,并且能够处理长达一分钟以上的视频片段。代码与预训练模型已公开,详见:https://github.com/facebookresearch/TimeSformer。