17日前

TAda! 動的適応型畳み込みによる動画理解

Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr

要約

空間畳み込みは、多数の深層動画モデルで広く用いられている。この手法は、基本的に時空間不変性（spatio-temporal invariance）を仮定しており、異なるフレーム内のあらゆる位置において重みを共有するという前提に基づいている。本研究では、動画理解を目的とした「時系列適応畳み込み（Temporally-Adaptive Convolutions, TAdaConv）」を提案する。TAdaConvは、時間軸に沿った適応的重み調整が、動画における複雑な時間的ダイナミクスを効率的にモデル化する有効な手段であることを示している。具体的には、各フレームの局所的および全体的な時間的文脈に基づいて畳み込み重みを調整することで、空間畳み込みに時間的モデリング能力を付与する。従来の時間的モデリング手法と比較して、TAdaConvは特徴量ではなく畳み込みカーネル上で動作するため、空間解像度と比べて次元が1桁以上小さいカーネルを対象としており、より効率的である。さらに、カーネルの調整によりモデルの表現力が向上する。本研究では、ResNetおよびConvNeXtにおける2D畳み込みをTAdaConvに置き換えたTAda2DおよびTAdaConvNeXtネットワークを構築した。これらのモデルは、複数の動画行動認識および局所化ベンチマークにおいて、最先端手法と同等以上、あるいはそれ以上の性能を達成している。また、計算負荷が極めて小さく、即座に既存の動画モデルに統合可能な点も示しており、TAdaConvは多くの既存モデルの性能を有意な水準で向上させることを実証した。