
要約
視覚ベースの行動認識における重要な課題の一つは、2つ以上の異種モダリティ(異種モード)の空間時間的特徴を単一の特徴に埋め込むことである。本研究では、適応的な空間時間受容野を備え、マルチモーダル学習スキームを採用する新しい3次元可変トランスフォーマー(3D deformable transformer)を提案する。この3D可変トランスフォーマーは、3つのアテンションモジュールから構成される:3次元可変性、局所関節ストライド、および時間ストライドアテンション。2つのマルチモーダルトークンを3D可変アテンションモジュールに入力することで、空間時間的相関を反映したクロスアテンショントークンを生成する。局所関節ストライドアテンションは、空間的にアテンショントークンとポーズトークンを結合するためのものであり、時間ストライドアテンションはアテンションモジュール内の入力トークン数を時間的に削減し、すべてのトークンを同時に使用せずに時間的表現学習を支援する。可変トランスフォーマーはL回の反復処理を行い、最終的なクロスモーダルトークンを分類に用いる。提案手法の3D可変トランスフォーマーは、NTU60、NTU120、FineGYM、PennActionの各データセット上で評価され、事前学習を用いない状態でも、既存の最先端手法と同等またはそれ以上の性能を達成した。さらに、空間的関節アテンションおよび時間ストライドアテンションを用いて行動認識時の重要な関節や相関を可視化することで、行動認識における説明可能性(explainability)の可能性が示された。