
グラフ畳み込みネットワーク(GCN)は、骨格ベースの行動認識において広く用いられ、顕著な成果を上げている。本研究では、骨格ベースの行動認識の鍵は、フレーム内に配置された骨格構造にあると考え、グラフ畳み込みネットワークがどのように異なるトポロジーを学習し、時間的領域(グローバルおよびローカル)において関節特徴を効果的に集約するかに注目した。本研究では、チャネル別トポロジー精製グラフ畳み込み(CTR-GCN)を基盤として、チャネル別トポロジーに基づく3種類のグラフ畳み込み手法を提案する。さらに、CTR-GCNと2つの関節間クロスアテンションモジュールを組み合わせることで、上半身・下半身および手足間の関係性を捉えた骨格特徴を抽出可能となる。次に、フレーム間で変化する人間骨格の特徴を捉えるために、時間的アテンショントランスフォーマー(Temporal Attention Transformers)を設計し、骨格の時間的特徴を効果的に抽出する。この時間的アテンショントランスフォーマーは、人間骨格シーケンスの時間的構造を学習可能である。最終的に、抽出された時間的特徴をMLPで統合・変換し、分類処理を行う。本研究では、空間的・時間的効率性を重視したボディパーツ間クロスアテンショントランスフォーマー(Spatial Temporal Effective Body-part Cross Attention Transformer、STEP-CATFormer)と呼ばれる強力なグラフ畳み込みネットワークを構築し、NTU RGB+DおよびNTU RGB+D 120データセットにおいて優れた性能を達成した。本研究のコードおよびモデルは、https://github.com/maclong01/STEP-CATFormer にて公開されている。