
要約
私たちはEgoTAPを提案します。これは、高精度のステレオエゴセントリック3Dポーズ推定のためのヒートマップから3Dポーズへの変換方法です。エゴセントリックカメラビューにおける深刻な自己遮蔽と視野外の四肢は、正確なポーズ推定を難問としています。この課題に対処するために、従来の手法では、体のポーズの確率的な2D表現である関節ヒートマップを使用していますが、ヒートマップから3Dポーズへの変換プロセスは依然として不正確なままでした。私たちは、Grid ViT EncoderとPropagation Networkで構成される新しいヒートマップから3Dへの変換方法を提案します。Grid ViT Encoderは、自己注意機構を使用して関節ヒートマップを効果的な特徴埋め込みに要約します。その後、Propagation Networkは骨格情報を活用して隠れた関節の位置をより正確に推定し、3Dポーズを推定します。私たちの手法は、MPJPEメトリクスでの誤差が23.9%減少するという定量的および定性的評価で示されるように、以前の最先端技術を大幅に上回っています。私たちのソースコードはGitHubで公開されています。