17日前

STAR-Transformer:人的行動認識のための空間時系列クロスアテンションTransformer

Dasom Ahn, Sangwon Kim, Hyunsu Hong, Byoung Chul Ko
STAR-Transformer:人的行動認識のための空間時系列クロスアテンションTransformer
要約

行動認識において、空間時間動画と骨格特徴の組み合わせは認識性能の向上に寄与するが、クロスモーダルデータに対しては別個のモデル設計と特徴表現のバランス調整が求められる。こうした課題を解決するため、本研究では空間時間クロス(Spatio-Temporal cRoss, STAR)変換器を提案する。STAR変換器は、二つのクロスモーダル特徴を効果的に統合し、識別可能なベクトル表現として出力する能力を持つ。まず、入力動画と骨格時系列から、動画フレームはグローバルグリッドトークンとして、骨格データはジョイントマップトークンとしてそれぞれ抽出される。これらのトークンは、マルチクラストークンに集約された後、STAR変換器に投入される。STAR変換器のエンコーダ層は、完全自己注意(Full Self-attention, FAttn)モジュールと、本研究で提案するジグザグ空間時間注意(Zigzag Spatio-Temporal Attention, ZAttn)モジュールから構成される。同様に、連続的デコーダはFAttnモジュールと、提案するバイナリ空間時間注意(Binary Spatio-Temporal Attention, BAttn)モジュールで構成される。STAR変換器は、FAttn、ZAttn、BAttnモジュールの適切な組み合わせを配置することで、空間時間特徴の効率的な多特徴表現を学習する。Penn-Action、NTU RGB+D 60、およびNTU RGB+D 120データセットにおける実験結果から、従来の最先端手法と比較して、提案手法が顕著な性能向上を達成することが確認された。