2ヶ月前

幾何学に基づくトランスフォーマーを用いた堅牢な多視点3Dヒューマンポーズ再構成

Moliner, Olivier ; Huang, Sangxia ; Åström, Kalle
幾何学に基づくトランスフォーマーを用いた堅牢な多視点3Dヒューマンポーズ再構成
要約

我々は、複数の視点から3次元の人間ポーズを推定する際の課題、特に遮蔽下での推定や限られた重なり合う視点での推定に取り組んでいます。本研究では、複数視点からの単一人間の3次元ポーズ再構成を回帰問題として捉え、多視点2次元ポーズシーケンスから3次元ポーズを推定する新しいエンコーダー-デコーダーTransformerアーキテクチャを提案します。エンコーダーは、異なる視点と時間で検出された2次元骨格関節を洗練し、全般的自己注意(global self-attention)を通じて多視点および時系列情報を融合します。さらに、エンコーダーの性能向上のために幾何学的なバイアスを持つ注意メカニズム(geometry-biased attention mechanism)を取り入れることで、視点間の幾何学的関係性を効果的に活用しています。また、2次元ポーズ検出器が提供する検出スコアを使用して、2次元検出の信頼性に基づいてエンコーダーの注意をさらにガイドします。その後、デコーダーはこれらの洗練されたトークンから各関節に対する事前定義されたクエリを使用して3次元ポーズシーケンスを回帰します。未知のシーンへの汎化能力向上と欠損関節への耐性改善のために、シーン中心化(scene centering)、合成視点(synthetic views)、トークンドロップアウト(token dropout)などの戦略を実装しています。我々はHuman3.6M、CMU Panoptic、Occlusion-Personsという3つのベンチマーク公開データセット上で広範な実験を行いました。その結果は、特に遮蔽のあるシーンや少数の視点しか利用できない場合においても有効であることを示しており、これらは従来の三角測量ベースの手法にとって困難な状況でした。

幾何学に基づくトランスフォーマーを用いた堅牢な多視点3Dヒューマンポーズ再構成 | 最新論文 | HyperAI超神経