11日前

Skeletonベースの行動認識のためのハイパーグラフトランスフォーマー

Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper
Skeletonベースの行動認識のためのハイパーグラフトランスフォーマー
要約

骨格に基づく行動認識は、人体の関節座標およびそれらの骨格的接続関係を入力として、人間の行動を認識することを目的とする。関節を頂点、自然な接続関係を辺として定義したグラフを用いることで、従来の手法はグラフ畳み込みネットワーク(GCN)を活用し、関節の同時出現を効果的にモデル化することで優れた性能を達成してきた。近年では、GCNの限界として、学習後にグラフ構造が固定されてしまうという問題が指摘された。この制約を緩和するために、自己注意(Self-Attention, SA)機構が導入され、GCNのトポロジーを入力に応じて動的に調整可能とするハイブリッドモデルが提案され、最先端の性能を達成している。一方で、単純なTransformerを用いた試みも行われているが、構造的事前知識(structural prior)の欠如により、依然としてGCNベースの最先端手法に遅れをとっている。本研究では、ハイブリッドモデルとは異なり、より洗練されたアプローチとして、骨格接続性をTransformerに組み込むためのグラフ距離埋め込み(graph distance embedding)を提案する。この埋め込みは学習過程においても骨格構造の情報を保持する一方で、従来のGCNは骨格構造を初期化のための手段としてのみ利用している。さらに重要な点として、本研究では一般のグラフモデルに潜む根本的な問題を明らかにする。すなわち、ペアワイズな集約(pairwise aggregation)は、身体関節間の高次運動学的依存関係を無視してしまうという点である。このギャップを埋めるために、ハイパーグラフ上での新しい自己注意機構、すなわち「ハイパーグラフ自己注意(Hypergraph Self-Attention, HyperSA)」を提案する。この機構により、モデル内に内在する高次関係を自然に組み込むことが可能となる。これにより得られるモデルを「Hyperformer」と命名し、NTU RGB+D、NTU RGB+D 120、Northwestern-UCLAの各データセットにおいて、精度と効率の両面で最先端のグラフモデルを上回ることを実証した。

Skeletonベースの行動認識のためのハイパーグラフトランスフォーマー | 最新論文 | HyperAI超神経