
要約
骨格に基づく行動認識の課題の一つは、類似した運動をとる行動や物体に関連する行動の分類が難しい点にある。このような状況において、他のストリームからの視覚的ヒントが有効となる。RGBデータは照明条件に敏感であるため、暗所では利用できない。この問題を緩和しつつ、視覚ストリームの利点を活かすために、骨格データと赤外線データを組み合わせるモジュール型ネットワーク(FUSION)を提案する。骨格データから特徴を抽出するため、2次元畳み込みニューラルネットワーク(CNN)をポーズモジュールとして用いる。一方、赤外線動画から視覚的手がかりを抽出するため、3次元CNNを赤外線モジュールとして採用する。これらの特徴ベクトルはその後連結され、多層パーセプトロン(MLP)を用いて統合的に処理される。さらに、骨格データは赤外線動画の入力に条件づけられ、動作する被験者周辺の領域を切り出して入力として提供する。これにより、赤外線モジュールの注目領域が実質的に制限され、より効果的な特徴抽出が可能になる。アブレーション研究の結果、他の大規模データセットで事前学習されたネットワークをモジュールとして利用し、データ拡張を施すことで、行動分類精度が顕著に向上することが示された。また、本研究で提案する切り出し戦略の強力な貢献も実証された。本手法は、深度カメラからの人体行動認識に用いられる最大規模のデータセットであるNTU RGB+Dデータセット上で評価され、最先端の性能を達成した。