2ヶ月前

各関節の動きを捉える:独立トークンを使用した3次元人間の姿勢と形状推定

Yang, Sen ; Heng, Wen ; Liu, Gang ; Luo, Guozhong ; Yang, Wankou ; Yu, Gang
各関節の動きを捉える:独立トークンを使用した3次元人間の姿勢と形状推定
要約

本稿では、単眼動画から3次元ヒューマンポーズと形状を推定する新しい手法を提案します。この課題は、単眼画像や動画から直接ピクセルアライメントの3次元ヒューマンポーズと体型を復元することを必要とし、その固有の曖昧性により難易度が高くなります。精度向上のために、既存の手法は初期化された平均ポーズと形状を事前推定として利用し、反復的な誤差フィードバックによるパラメータ回帰に大きく依存しています。さらに、動画ベースのアプローチは画像レベル特徴量全体の変化をモデル化して単一フレーム特徴量を時間的に強化しますが、関節レベルでの回転運動を捉えられず、局所的な時間的一貫性を保証できません。これらの問題に対処するために、我々は独立トークン設計に基づく新しいトランスフォーマー型モデルを提案します。まず、画像特徴量とは独立した3種類のトークン(\textit{関節回転トークン, 体型トークン, カメラトークン})を導入します。これらのトークンはトランスフォーマー層を通じて画像特徴量との逐次的な相互作用を行い、大規模データから人間の3次元関節回転、体型、位置情報に関する事前知識を学習し、与えられた画像に基づいてSMPLパラメータの推定に更新されます。第二に、提案されたトークンベース表現の恩恵を受けつつ、時間的なモデルを使用して各関節の回転運動情報を捉えることに焦点を当てます。これは経験的に局所部分での大きな揺れ動きを防ぐのに効果的です。提案手法は概念的には単純ですが、3DPWおよびHuman3.6Mデータセットにおいて優れた性能を達成しています。ResNet-50およびトランスフォーマー構造を使用することで、挑戦的な3DPWにおいてPA-MPJPE指標で42.0 mmの誤差を得ており、最先端の対応手法よりも大幅に優れています。コードは以下のURLで公開予定です: https://github.com/yangsenius/INT_HMR_Model