
要約
本論文は、従来の骨格ベースの動作認識に伴う3つの制限;骨格検出と追跡の誤差、対象とする動作の乏しい多様性、および個人別・フレーム別の動作認識を同時に解決することを目指しています。点群(point cloud)深層学習パラダイムが動作認識に導入され、統一的なフレームワークと「構造化キーポイントプーリング」(Structured Keypoint Pooling)と呼ばれる新しい深層ニューラルネットワークアーキテクチャが提案されています。提案手法は、データ構造(骨格に内在する)に関する事前知識に基づいて、各キーポイントが属するインスタンスやフレームを疎に集約し、入力誤差に対する堅牢性を達成します。また、制約が少なく追跡不要なアーキテクチャにより、人間の骨格と非人間オブジェクトの輪郭からなる時系列キーポイントを効率的に3D点群として扱うことができ、対象とする動作の多様性を拡大します。さらに、「プーリング切り替えトリック」(Pooling-Switching Trick)という「構造化キーポイントプーリング」から着想を得た手法を提案しています。このトリックは、訓練フェーズと推論フェーズでプーリングカーネルを切り替えることで、ビデオレベルの動作ラベルのみを使用して弱教師ありで個人別・フレーム別の動作を検出します。このトリックにより、異なるビデオから抽出した複数の点群を混ぜる新しいデータ拡張方法が自然に導入されます。実験では、提案手法がこれらの制限に対して有効であることを包括的に検証し、その性能が最新の骨格ベースの動作認識および空間時間的動作局所化手法を超えることが確認されました。