
複雑な空間時間動的空間から判別的な表現を学習することは、ビデオ認識において重要です。これらの様式的な空間時間計算単位の上に、軸間コンテキストを使用して学習された特徴量をさらに洗練することが、この目標を達成するために有望であることが示されています。しかし、これまでの研究では一般的に単一の種類のコンテキストを使用して全特徴チャネルを調整することに焦点が当てられており、多様なビデオ活動に対処するには困難がありました。この問題は、ペアワイズ空間時間注意を使用して軸間コンテキストで特徴応答を再計算することで解決できますが、その代償として重い計算が必要となります。本論文では、特徴チャネルをいくつかのグループに分解し、異なる軸間コンテキストを使用して並列にそれぞれを洗練する効率的な特徴量洗練方法を提案します。私たちはこの軽量な特徴量調整手法をグループコンテクシュアライゼーション(GC)と呼びます。具体的には、効率的な要素ごとの調整器群(ECal-G/S/T/L)を設計しました。これらの調整器は、他の軸からグローバルまたはローカルに集約された情報動態を持つ軸間コンテキストを使用して特徴チャネルグループをコンテクシュアライズします。GCモジュールは既存のビデオネットワークの各残差層に密接に組み込むことができます。わずかな計算負荷で、異なるネットワークにGCを組み込むことで一貫した改善が観察されました。4つの異なる種類のコンテキストを使用して並列に特徴量を埋め込むことにより、学習された表現は多様な活動タイプに対してより耐えうるようになることが期待されます。豊富な時間変動を持つビデオでは、実証的にGCが2D-CNN(例:TSNおよびTSM)の性能を最先端のビデオネットワークと同等のレベルまで向上させることが確認されています。コードは以下のURLから入手可能です: https://github.com/haoyanbin918/Group-Contextualization.