インタラクティブ空間時間トークン注意ネットワークを用いた骨格ベースの一般インタラクション認識

相互作用の認識は、ヒューマン-ロボット相互作用および協調において重要な役割を果たします。従来の手法では、遅延融合(late fusion)と共注意機構(co-attention mechanism)が用いられており、これらの手法には学習能力の制限や多数の相互作用するエンティティへの適応効率の低さという問題があります。各エンティティの事前情報が既に知られているという前提のもとで、これらはより一般的な設定における主体の多様性に対する評価が不足しています。これらの問題を解決するために、我々は空間的、時間的、および相互作用的な関係を同時にモデル化するInteractive Spatiotemporal Token Attention Network (ISTA-Net) を提案します。具体的には、我々のネットワークにはInteractive Spatiotemporal Tokens (ISTs) を分割するトークナイザーが含まれています。ISTs は、複数の異なるエンティティの動きを一元的に表現する方法です。エンティティ次元を拡張することで、ISTs はより良い相互作用表現を提供します。ISTs の3つの次元で共同学習を行うために、マルチヘッド自己注意ブロックと3D畳み込みを組み合わせた設計が行われています。これにより、トークン間の相関関係を捉えることができます。相関関係をモデル化する際には、通常、エンティティの厳密な順序は相互作用行動の認識にとって無関係です。これを踏まえて、Entity Rearrangement が提案され、ISTs 内での順序性を取り除き、交換可能なエンティティに対応します。4つのデータセットを使用した広範な実験により、ISTA-Net の有効性が確認され、最先端の手法を超える性能を示しました。我々のコードは公開されており、以下のURLからアクセスできます: https://github.com/Necolizer/ISTA-Net