18日前

効率的な粗緻から細部へのネットワークによる行動およびジェスチャー認識のための研究

{Peng Dai, Juwei Lu, Wei Li, Niamul Quader}
効率的な粗緻から細部へのネットワークによる行動およびジェスチャー認識のための研究
要約

動画を用いた行動およびジェスチャー認識の最先端的手法は、一般的に2つの重要な概念を採用している。第一に、マルチストリーム処理を用いること。第二に、畳み込みネットワークのアンサンブルを用いることである。本研究では、これらの両面を改善・拡張する。まず、入力画像を空間的・時間的次元において粗いレベルから細かいレベルへと段階的に分解することで、補完的な特徴抽出に向けた拡張された受容 field を体系的に獲得し、再パラメータ化された全結合層を用いて、重要な特徴パスの学習に適応的に注目する。次に、「必要に応じて使用する(use when needed)」という戦略に基づく「粗い出口(coarse-exit)」機構を提案し、データ依存的に高解像度処理を選択的に適用することで、計算コストを低減しつつ精度を維持する。本研究で提案するC2F学習アプローチにより構築されたアンサンブルネットワークは、Something-Something V1、V2およびJesterデータセットにおいて、計算コストの削減と精度の向上という点で、多数の競合手法を上回る性能を達成している。また、Kinetics-400データセットにおいても、競争力を持つ結果を示している。本研究の特徴として、C2Fアンサンブルネットワークは、異なる計算リソース制約の下でも柔軟に動作可能である点が挙げられる。

効率的な粗緻から細部へのネットワークによる行動およびジェスチャー認識のための研究 | 最新論文 | HyperAI超神経