KTPFormer: キネマティクスと軌道の事前知識を活用した3Dヒューマンポーズ推定用トランスフォーマー

本論文では、新しい運動学と軌道事前知識強化トランスフォーマー(Kinematics and Trajectory Prior Knowledge-Enhanced Transformer, KTPFormer)を提案します。既存の3D人間姿勢推定におけるトランスフォーマー手法の弱点である、自己注意機構におけるQ, K, Vベクトルの導出が単純な線形マッピングに依存している問題を克服しています。私たちは、人間の体の既知の解剖学的構造と動作軌道情報を活用し、多頭自己注意におけるグローバルな依存関係と特徴を効果的に学習するために、運動学事前注意モジュール(Kinematics Prior Attention, KPA)と軌道事前注意モジュール(Trajectory Prior Attention, TPA)という2つの事前注意モジュールを提案します。KPAは運動学のトポロジーを構築することで人間の体の運動学的な関係をモデル化し、TPAはフレーム間での関節動作軌道情報の学習のために軌道トポロジーを構築します。これらの2つのモジュールにより、KTPFormerは空間的および時間的な相関関係を同時にモデル化することが可能になります。3つのベンチマーク(Human3.6M、MPI-INF-3DHP、HumanEva)で行われた広範な実験結果から、KTPFormerは最先端手法に対して優れた性能を達成することが示されています。さらに重要な点として、私たちが提案するKPAおよびTPAモジュールは軽量かつプラグアンドプレイ設計であり、計算負荷が僅かに増加するだけで様々なトランスフォーマーベースのネットワーク(例えば拡散型など)に統合して性能向上を図ることができます。コードは以下のURLで公開されています: https://github.com/JihuaPeng/KTPFormer.