PSUMNet:効率的なポーズベースの行動認識のためには、統合モダリティ部分ストリームがすべてである

ポーズベースの行動認識は、主に入力された骨格データを一塊として扱うアプローチによって対処されてきた。すなわち、ポーズ木内の関節群は全体として処理される。しかし、このようなアプローチは、行動カテゴリがしばしば手(例:「サムアップ」)や脚(例:「キック」)といった小さな部分関節群に限定された局所的な行動ダイナミクスによって特徴づけられるという事実を無視している。一部の部分グループに基づくアプローチは存在するが、それらは全体的なポーズフレーム内での部分グループの考慮を欠いており、結果として性能に限界が生じる。さらに、従来の手法では独立したモダリティストリーム(例:関節、ボーン、関節速度、ボーン速度)を用い、各ストリームに対してネットワークを複数回訓練するため、学習パラメータ数が著しく増加する。これらの課題に対処するため、本研究ではスケーラブルかつ効率的なポーズベースの行動認識を実現する新規アプローチ「PSUMNet」を提案する。表現レベルでは、従来のモダリティベースのストリームではなく、グローバルフレームに基づく部分ストリームアプローチを提案する。各部分ストリーム内では、複数のモダリティから得られる関連データが統合され、処理パイプラインに統一的に供給される。実験結果として、PSUMNetは広く用いられているNTURGB+D 60/120および密集関節骨格データセットNTU 60-X/120-Xにおいて、最先端の性能を達成した。PSUMNetは非常に効率的であり、パラメータ数が100%~400%多い競合手法を上回る性能を発揮した。また、SHREC手のジェスチャーデータセットにおいても、競争力のある性能を示し、汎化能力を確認した。総合的に、PSUMNetのスケーラビリティ、性能、効率性により、行動認識の分野および計算リソースが制限された組み込み型・エッジデバイスへの展開において非常に魅力的な選択肢となる。コードおよび事前学習済みモデルは、https://github.com/skelemoa/psumnet からアクセス可能である。