マスク付きビデオディスティレーション:自己監督型ビデオ表現学習のためのマスク特徴量モデリングの再考

マスク付き視覚モデリングの恩恵を受け、自己監督型ビデオ表現学習は著しい進歩を遂げています。しかし、既存の手法は、低レベルの特徴(例えば、生ピクセルRGB値)を再構築することによって表現を一から学習することに焦点を当てています。本論文では、単純でありながら効果的な二段階のマスク付き特徴モデリングフレームワークであるマスク付きビデオディスティレーション(MVD)を提案します:まず、画像(またはビデオ)モデルをマスクされたパッチの低レベルの特徴を復元することで事前学習し、次にその結果得られた特徴をマスク付き特徴モデリングの目標として使用します。教師モデルの選択に関しては、ビデオ教師によって教えられた学生モデルが時間的に重いビデオタスクでより良い性能を示す一方で、画像教師は空間的に重いビデオタスクに対してより強い空間表現を転送することが観察されました。可視化分析も異なる教師が学生に対して異なる学習パターンを生成することを示しています。この観察に基づいて、我々はMVD用の空間-時間共教法を設計しました。具体的には、マスク付き特徴モデリングにより、ビデオ教師と画像教師の両方から学生モデルに知識を取り入れます。広範な実験結果は、空間-時間共教法で事前学習されたビデオトランスフォーマーが単一の教師から知識を取り入れたモデルよりも多くのビデオデータセットで優れた性能を示すことを証明しています。我々のMVDは通常のViTを使用して以前の監督ありまたは自己監督型手法と比較していくつかの難易度が高いビデオ下流タスクにおいて最先端の性能を達成しています。例えば、ViT-Largeモデルを使用した場合、我々のMVDはKinetics-400とSomething-Something-v2でそれぞれ86.4%と76.7%のTop-1精度を達成し、VideoMAEを超える1.2%と2.4%それぞれ高くなっています。さらに大きなViT-Hugeモデルを使用すると、MVDはSomething-Something-v2で77.3%のTop-1精度とAVA v2.2で41.1 mAPという最先端の性能を達成します。コードは \url{https://github.com/ruiwang2021/mvd} で公開予定です。