
要約
骨格ベースの人間行動認識は、大規模な骨格データセットの利用が可能となったことで、最近ますます注目を集めています。このタスクにおいて最も重要な要因は、2つの側面にあります。すなわち、フレーム内の関節の共起表現と、フレーム間での骨格の時間的変化の表現です。本論文では、エンドツーエンドの畳み込み共起特徴学習フレームワークを提案します。共起特徴は階層的な手法で学習され、異なるレベルのコンテキスト情報が段階的に集約されます。まず各関節のポイントレベル情報が独立して符号化されます。その後、空間領域と時間領域の両方で意味的な表現に組み立てられます。具体的には、局所集約よりも優れた関節共起特徴を学習できるグローバル空間集約スキームを導入しています。さらに、生の骨格座標とその時間差分が2ストリームパラダイムによって統合されます。実験結果から、当手法がNTU RGB+DやSBU Kinect Interaction、PKU-MMDなどの行動認識・検出ベンチマークで他の最先端手法を一貫して上回ることが示されています。