17日前

UniFormerV2:画像ViTに動画UniFormerを搭載した空間時系列学習

{Anonymous}
UniFormerV2:画像ViTに動画UniFormerを搭載した空間時系列学習
要約

動画理解における鍵となる課題は、判別力のある時空間表現を学習することである。近年、ビジョン変換器(ViTs)は自己注意機構(self-attention)を用いて長距離の動画依存関係を効果的に学習できることが示された。しかし、トークン間のグローバルな比較が盲目的であるため、局所的な動画の冗長性に対処する点で限界がある。この問題を解決するために、UniFormerは変換器形式において畳み込みと自己注意を統合した関係集約器として用いることで、この課題を著しく軽減した。しかし、このモデルは動画上で微調整(fine-tuning)を行う前に、煩雑で面倒な画像事前学習フェーズを必須としており、実用的な広範な利用を阻害している。一方で、オープンソース化されたViTsは、豊富な画像監視情報に基づいて十分に事前学習されており、即座に利用可能である。こうした観察に基づき、我々は、事前学習済みのViTsに効率的なUniFormerの設計を組み合わせることで、強力な動画ネットワークのファミリーを構築する汎用的な枠組みを提案する。このファミリーを「UniFormerV2」と名付けた。これはUniFormerブロックの簡潔なスタイルを継承しているが、新たな局所的およびグローバルな関係集約器を内包しており、ViTsとUniFormerの利点をスムーズに統合することで、精度と計算量のバランスに優れた性能を実現している。特筆すべきは、いかなる追加的な工夫(bells and whistles)を加えず、8つの代表的な動画ベンチマークにおいて最先端の認識性能を達成した点である。対象は、シーン関連のKinetics-400/600/700およびMoments in Time、時系列関連のSomething-Something V1/V2、非トリムドのActivityNetおよびHACSを含む。特に、我々が知る限り、Kinetics-400においてトップ-1精度90%を初めて達成したモデルである。モデルは後日公開される予定である。