17日前
時間的に適応的なモデルによる効率的な動画理解
Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Yingya Zhang, Ziwei Liu, Marcelo H. Ang Jr

要約
空間畳み込みは、多数の深層動画モデルで広く用いられている。これは本質的に時空間不変性(spatio-temporal invariance)を仮定しており、異なるフレーム内のすべての位置に対して共有重みを用いることを意味する。本研究では、動画理解を目的として、時間軸に応じた重みの適応的調整を可能にする「時間的に適応的な畳み込み(Temporally-Adaptive Convolutions, TAdaConv)」を提案する。TAdaConvは、各フレームの局所的および全体的な時間的文脈に基づいて畳み込み重みを調整することで、空間畳み込みに時間的モデリング能力を付与することを可能にする。既存の時間的モデリング手法と比較して、TAdaConvは特徴量ではなく畳み込みカーネル上で演算を行うため、空間解像度よりも1桁程度小さい次元で処理が可能であり、より高い効率性を実現している。さらに、カーネルの調整はモデルの表現能力を向上させる効果を持つ。この即時挿入可能なTAdaConvおよびその拡張版TAdaConvV2を基盤として、ConvNeXtおよびVision Transformerに強力な時間的モデリング能力を付与するTAdaBlocksを構築した。実証的な結果から、TAdaConvNeXtV2およびTAdaFormerは、さまざまな動画理解ベンチマークにおいて、最先端の畳み込み型およびTransformerベースのモデルと競合する性能を示した。本研究のコードおよびモデルは、以下のURLで公開されている:https://github.com/alibaba-mmai-research/TAdaConv。