2ヶ月前

MixSTE: Seq2seq 混合空間時間エンコーダーによるビデオ中の3次元人間ポーズ推定

Zhang, Jinlu ; Tu, Zhigang ; Yang, Jianyu ; Chen, Yujin ; Yuan, Junsong
MixSTE: Seq2seq 混合空間時間エンコーダーによるビデオ中の3次元人間ポーズ推定
要約

最近、トランスフォーマーを基盤とするソリューションが導入され、全フレームにおける身体の関節を考慮して空間時間相関を学習することにより、2Dキーポイントシーケンスから3Dヒューマンポーズを推定することが可能になりました。私たちは異なる関節の動きが著しく異なることを観察しています。しかし、従来の手法は各関節のフレーム間の固有の対応関係を効率的にモデル化することができず、結果として空間時間相関の学習が不十分であることが指摘されています。本研究では、MixSTE(Mixed Spatio-Temporal Encoder)を提案します。このエンコーダには、各関節の時間的な動きを個別にモデル化するための一時的トランスフォーマーブロックと、関節間の空間的な相関を学習するための空間トランスフォーマーブロックが含まれています。これらの2つのブロックは交互に使用することで、より優れた空間時間特徴量エンコーディングを実現します。さらに、ネットワーク出力は中央フレームから入力ビデオ全体のフレームへと拡張され、これにより入力シーケンスと出力シーケンス間の一貫性が向上します。三つのベンチマーク(Human3.6M, MPI-INF-3DHP, および HumanEva)において広範な実験が行われました。その結果、私たちのモデルは最新手法に対してP-MPJPEで10.9%、MPJPEで7.6%上回ることが示されました。コードはhttps://github.com/JinluZhang1126/MixSTE で公開されています。