
要約
畳み込みニューラルネットワーク(CNN)は、画像認識における標準的なモデルである。しかし、動画認識に向けた2次元CNNの直線的な拡張である3次元CNN(3D CNN)は、標準的な行動認識ベンチマークにおいて、同等の成果を達成できていない。3D CNNの性能が低下する主な要因の一つは、計算量の増大であり、これにより大規模なアノテーション付きデータセットを用いたスケールでの学習が不可欠となる点にある。3D CNNの複雑さを低減するため、3Dカーネルの因子分解アプローチが提案されている。しかし、既存のカーネル因子分解手法は、手動で設計された固定された構造に依存している。本論文では、空間時系列分解における相互作用を制御し、データ依存的に時系列方向への特徴の適応的ルーティングと結合を学習する、新たな空間時系列特徴抽出モジュール「ゲートシフトフュージョン(Gate-Shift-Fuse, GSF)」を提案する。GSFは、グループ化された空間ゲートを活用して入力テンソルを分解し、チャネル重み付けを用いて分解されたテンソルを統合する。このGSFは、既存の2次元CNNに容易に組み込むことができ、パラメータ量および計算負荷の増加をほとんど伴わず、効率的かつ高精度な空間時系列特徴抽出器へと変換する。本研究では、2つの代表的な2次元CNNアーキテクチャを用いてGSFの広範な分析を行い、5つの標準的な行動認識ベンチマークにおいて、最先端(SOTA)または競争力のある性能を達成した。