BEVT: Video TransformersにおけるBERT事前学習

本論文は、動画変換器(video transformers)におけるBERT事前学習の研究を扱う。近年、画像変換器におけるBERT事前学習の成功を踏まえ、これは直感的でありながらも価値ある拡張である。本研究では、空間的表現学習と時間的動的性質学習を分離するBEVT(BERT-based Video Transformer)を提案する。具体的には、まず画像データに対してマスク画像モデリング(masked image modeling)を実施し、その後、動画データに対してマスク画像モデリングとマスク動画モデリングを共同で行う。この設計の背景には以下の2つの観察がある。1)画像データ上で学習された変換器は、空間的な事前知識(spatial priors)を提供するため、特に初期学習から行う場合に計算コストが高くなる傾向のある動画変換器の学習を容易にすることができる。2)正しく予測を行うために必要な識別的特徴(判別的ヒント)、すなわち空間的および時間的情報は、クラス内およびクラス間の大きな変動により、異なる動画において異なる。本研究では、3つの困難な動画ベンチマーク上で広範な実験を行い、BEVTが非常に有望な結果を達成した。Kinetics 400では、識別的空間表現に依存する認識タスクにおいて、強力な教師ありベースラインと同等の性能を達成した。Something-Something-V2およびDiving 48では、時間的動的性質に依存する動画が含まれており、すべての代替ベースラインを明確な差で上回り、それぞれ71.4%および87.2%のTop-1精度を達成し、最先端の性能を実現した。コードは、\url{https://github.com/xyzforever/BEVT} にて公開される予定である。