
要約
骨格に基づく人体行動認識は、そのコンパクトさと高レベル表現の豊かさから、近年、非常に活発な研究テーマとなっている。従来の研究では、空間的および時間的次元における関節間の関係性を調査することで、行動認識に不可欠な有効な情報が得られることを示している。しかし、空間時間特徴抽出の過程において、関節間のグローバルな依存関係を効果的に符号化することは依然として課題である。本研究では、骨格シーケンス内の関節間に潜在的な相関関係を考慮することで、行動に関連する重要な関節を特定する「アクションカプセル(Action Capsule)」を提案する。我々は、推論段階において、エンドツーエンドネットワークが各行動に特有の関節集合に注目しており、その関節の空間時間特徴が集約され、行動を認識していることを示す。さらに、複数段階のアクションカプセルを用いることで、類似した行動の分類能力が向上する。その結果、N-UCLAデータセットにおいて最先端の手法を上回る性能を達成し、NTURGBDデータセットでも競争力ある結果を獲得した。しかも、GFLOPsによる計算要求量の観点から見ても、本手法は大幅に低コストであることが明らかになった。