
要約
人間の骨格は、人間の動作をコンパクトに表現するものとして、近年ますます注目を集めています。多くの骨格ベースの動作認識手法では、グラフ畳み込みネットワーク(GCN)を用いて人間の骨格から特徴量を抽出しています。過去の研究で肯定的な結果が示されているにもかかわらず、GCNベースの手法には堅牢性、相互運用性、拡張性における制限があります。本研究では、PoseC3Dという新しい骨格ベースの動作認識アプローチを提案します。この手法は、人間の骨格を表現する基盤としてグラフシーケンスではなく3Dヒートマップスタックに依存しています。GCNベースの手法と比較して、PoseC3Dは空間時間特徴量の学習においてより効果的であり、姿勢推定ノイズに対してより堅牢であり、クロスデータセット設定での汎化性能も優れています。さらに、PoseC3Dは追加の計算コストなしで多人数シナリオに対応でき、その特徴量は初期融合段階で他のモダリティと容易に統合できるため、性能向上のために大きな設計空間を提供します。4つの挑戦的なデータセットにおいて、PoseC3Dは単独で骨格を使用した場合やRGBモダリティと組み合わせて使用した場合でも一貫して優れた性能を達成しています。