18日前

ビデオスウィントランスフォーマー

Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu
ビデオスウィントランスフォーマー
要約

視覚分野では、CNNからTransformerへのモデル構造の転換が進んでおり、純粋なTransformerアーキテクチャが主要な動画認識ベンチマークにおいてトップレベルの精度を達成しています。これらの動画モデルはすべて、空間的・時間的次元にわたって画素ブロック間をグローバルに接続するTransformer層に基づいて構築されています。本論文では、空間的・時間的要因分解を用いてもグローバルに自己注意(self-attention)を計算する従来手法と比較して、局所性(locality)を導入する誘導的バイアス(inductive bias)を提案します。これにより、速度と精度のトレードオフが改善されます。提案する動画用アーキテクチャにおける局所性は、画像分野向けに設計されたSwin Transformerを適応することで実現しつつ、事前学習済み画像モデルの強力な表現力を引き続き活用しています。本手法は、アクション認識(Kinetics-400で84.9%のtop-1精度、Kinetics-600で86.1%のtop-1精度)および時系列モデリング(Something-Something v2で69.6%のtop-1精度)を含む広範な動画認識ベンチマークにおいて、最先端の精度を達成しました。さらに、事前学習データ量は約1/20、モデルサイズは約1/3に削減されています。コードとモデルは、https://github.com/SwinTransformer/Video-Swin-Transformer にて公開予定です。

ビデオスウィントランスフォーマー | 最新論文 | HyperAI超神経