2ヶ月前
MotionAGFormer: 3次元人間ポーズ推定の向上に向けたTransformer-GCNFormerネットワーク
Mehraban, Soroush ; Adeli, Vida ; Taati, Babak

要約
最近のトランスフォーマーを基にした手法は、3次元ヒューマンポーズ推定において優れた性能を示しています。しかし、これらの手法は全体的な視点を持ち、すべての関節間のグローバルな関係性をエンコードすることにより、局所的な依存関係を正確に捉えることができません。本論文では、チャンネル数を2つの並列ストリームであるトランスフォーマーとGCNFormerで分割する新しいAttention-GCNFormer (AGFormer) ブロックを提案します。我々が提案するGCNFormerモジュールは、隣接する関節間の局所的な関係性を利用し、トランスフォーマー出力と補完的な新しい表現を生成します。これらの2つの表現を適応的に融合することで、AGFormerは基礎となる3次元構造をよりよく学習する能力を持っています。複数のAGFormerブロックを積み重ねることで、速度と精度のトレードオフに基づいて選択できる4種類の異なるバリアントを持つMotionAGFormerを提案します。我々はHuman3.6MおよびMPI-INF-3DHPという2つの主要なベンチマークデータセット上でモデルを評価しました。MotionAGFormer-Bは最新の結果を達成しており、それぞれP1エラーが38.4mmおよび16.2mmとなっています。特に注目すべきは、Human3.6Mデータセットにおける以前の最高峰モデルに比べてパラメータ数が4分の1であり、計算効率も3倍高いことです。コードとモデルはhttps://github.com/TaatiTeam/MotionAGFormer から入手可能です。