
骨格ベースの行動認識における現在の手法では、骨格シーケンスが通常長期間(128フレーム以上)にわたり、長期的な時系列依存性を捉えることが主な目的とされるため、これまでのアプローチにとって難しい課題となっている。このような状況下では、短期間の依存性は形式的にほとんど考慮されず、類似した行動を分類する上で極めて重要な要素であるにもかかわらず、その把握が不十分である。現在の多くのアプローチは、空間のみのモジュールと時系列のみのモジュールを交互に配置する構成となっており、隣接フレーム間の関節間における直接的な情報伝達が妨げられ、結果として短時間の運動を十分に捉え、類似した行動ペアを区別する能力に劣っている。この制約を克服するため、本研究ではクロス空間時系列情報の流れをモデル化する汎用的なフレームワーク「STGAT(Spatial-Temporal Graph Attention Network)」を提案する。STGATは空間のみのモジュールに空間時系列モデリング機能を付加し、局所的な空間的知覚能力を強化する。STGATは理論的に空間時系列モデリングにおいて有効であるが、さらに局所的な空間時系列特徴の冗長性を低減し、STGATの潜在能力を引き出すために、以下の3つのシンプルなモジュールを提案する:(1)自己注意機構の範囲を狭める、(2)時系列方向に沿って関節の重みを動的に調整する、(3)微細な運動情報を静的特徴から分離する。これらのモジュールにより、特徴抽出の効率性と表現力が向上する。強力な特徴抽出器としてのSTGATは、類似行動の分類において従来手法を上回る汎化性能を示しており、定性的・定量的な実験結果からもその有効性が確認された。STGATは、大規模な3つのデータセット(NTU RGB+D 60、NTU RGB+D 120、Kinetics Skeleton 400)において、最先端の性能を達成した。コードは公開されている。