
要約
現在の骨格ベースの動作認識における最先端アプローチは、主に再帰型ニューラルネットワーク(RNN)に基づいています。本論文では、動作分類と検出の両方に適用可能な新しい畳み込みニューラルネットワーク(CNN)ベースのフレームワークを提案します。生の骨格座標および骨格運動が直接CNNに入力され、ラベル予測が行われます。また、重要な骨格ジョイントを自動的に並べ替えおよび選択する新しい骨格トランスフォーマー・モジュールを設計しました。単純な7層ネットワークを使用して、NTU RGB+Dデータセットの検証セットで89.3%の精度を達成しました。未編集ビデオでの動作検出については、時間的なセグメント提案を抽出するウィンドウ提案ネットワークを開発し、同じネットワーク内でさらに分類を行いました。最近のPKU-MMDデータセットにおいて、93.7%のmAP(平均精度)を達成し、ベースラインを大幅に上回りました。