2ヶ月前

軌道プーリングを用いた深層畳み込み記述子による行動認識

Wang, Limin ; Qiao, Yu ; Tang, Xiaoou
軌道プーリングを用いた深層畳み込み記述子による行動認識
要約

視覚特徴は、ビデオにおける人間の行動理解において極めて重要です。本論文では、軌跡プーリング深層畳み込み記述子(Trajectory-pooled Deep-Convolutional Descriptor: TDD)と呼ばれる新しいビデオ表現を提案します。この手法は、手作業で設計された特徴量と深層学習によって得られた特徴量の両方の長所を兼ね備えています。具体的には、深層構造を使用して判別力のある畳み込み特徴マップを学習し、軌跡制約プーリングによりこれらの畳み込み特徴量を効果的な記述子に集約します。TDDの堅牢性を向上させるために、空間時間正規化(spatiotemporal normalization)およびチャンネル正規化(channel normalization)という2つの正規化方法を設計しました。当研究の特徴量の優位性は以下の点にあります。(i) TDDは自動的に学習され、手作業で設計された特徴量よりも高い判別能力を持つ;(ii) TDDは時間次元の内在的特性を取り入れ、軌跡制約サンプリングとプーリングの戦略を使用して深層学習による特徴量を集約する。我々はHMDB51およびUCF101という2つの難易度が高いデータセット上で実験を行いました。実験結果は、TDDが以前の手作業で設計された特徴量や深層学習による特徴量よりも優れていることを示しています。また、当手法はこれらのデータセットにおいて最先端の性能(HMDB51 65.9%、UCF101 91.5%)を達成しています。

軌道プーリングを用いた深層畳み込み記述子による行動認識 | 最新論文 | HyperAI超神経