空間的・時間的トランスフォーマー・ネットワークを用いたスケルトンベースの行動認識

近年、スケルトンデータが照明変化、身体スケール、動的なカメラ視点、複雑な背景に対して頑健であることが示されており、スケルトンベースの人体行動認識(Skeleton-based Human Activity Recognition)は大きな注目を集めています。特に、空間時間グラフ畳み込みネットワーク(Spatial-Temporal Graph Convolutional Networks, ST-GCN)は、スケルトングラフのような非ユークリッドデータにおいて、空間的および時間的依存関係を効果的に学習できることを示しました。しかし、3Dスケルトンに内在する潜在的な情報の有効な符号化は、依然として未解決の課題であり、特に関節の運動パターンとそれらの相関関係から有効な情報を抽出する点で困難が残っています。本研究では、Transformerの自己注意機構(self-attention operator)を用いて関節間の依存関係をモデル化する新たな空間時間Transformerネットワーク(Spatial-Temporal Transformer network, ST-TR)を提案します。本モデルでは、空間的自己注意モジュール(Spatial Self-Attention module, SSA)を用いてフレーム内での異なる身体部位間の相互作用を捉え、時間的自己注意モジュール(Temporal Self-Attention module, TSA)を用いてフレーム間の相関をモデル化しています。これらのモジュールは二本のストリーム構造で統合され、NTU-RGB+D 60、NTU-RGB+D 120、Kinetics Skeleton 400の3つの大規模データセット上で評価されました。その結果、バックボーンモデルの性能を一貫して向上させました。同じ入力データを用いる手法と比較した場合、関節座標を入力として用いたST-TRはすべてのデータセットで最先端(state-of-the-art)の性能を達成し、ボーン情報(骨情報)を追加した場合も、最先端レベルの結果を達成しています。