17日前

Video-FocalNets:動画行動認識のための空間時系列フォーカル調制

Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan
Video-FocalNets:動画行動認識のための空間時系列フォーカル調制
要約

最近の動画認識モデルは、長距離の空間時系列的文脈をモデル化するためにTransformerモデルを活用している。動画用Transformerの設計は、自己注意機構(self-attention)に基づいており、グローバルな文脈を高精度に捉えることができるが、計算コストが非常に高いという課題がある。一方、畳み込み型の設計は効率的ではあるが、長距離の依存関係を十分にモデル化できないという限界がある。本研究では、これらの両設計の長所を統合することを目指し、局所的およびグローバルな文脈を効果的かつ効率的にモデル化できる「Video-FocalNet」を提案する。Video-FocalNetは、空間時系列的フォーカル調制(focal modulation)アーキテクチャに基づいており、自己注意機構の相互作用(interaction)と集約(aggregation)の順序を逆転させることで、計算効率を向上させている。さらに、集約ステップと相互作用ステップの両方を、畳み込み演算および要素ごとの乗算演算によって実装しており、動画表現に対しては従来の自己注意機構よりも計算負荷が低い。本研究では、フォーカル調制に基づく空間時系列的文脈モデル化の設計空間を広範に調査し、並列的な空間的・時系列的符号化設計が最適であることを実証した。Video-FocalNetは、Kinetics-400、Kinetics-600、SS-v2、Diving-48、ActivityNet-1.3の5つの大規模データセットにおいて、最先端のTransformerベースモデルと比較して、同等または優れた性能を達成しつつ、より低い計算コストで動作する。本研究のコードおよびモデルは、https://github.com/TalalWasim/Video-FocalNets にて公開されている。