EgoPoseFormer: ステレオエゴセントリック3Dヒューマンポーズ推定のシンプルなベースライン

私たちは、ステレオエゴセントリックな人間の姿勢推定に使用されるシンプルかつ効果的なトランスフォーマーベースのモデルであるEgoPoseFormerを提案します。エゴセントリックな姿勢推定における主な課題は、自己遮蔽やヘッドマウントカメラの視野角(FOV)が限られていることにより生じる関節の非可視性を克服することです。私たちのアプローチでは、この課題を二段階の姿勢推定パラダイムによって解決しています。第一段階では、モデルは全体的な情報を活用して各関節の粗位置を推定し、第二段階ではDETRスタイルのトランスフォーマーを使用して細かいステレオ視覚特徴を利用することで粗位置を精緻化します。さらに、変形可能なステレオ注意操作(Deformable Stereo Attention operation)を提案し、これによりトランスフォーマーが多視点特徴を効果的に処理できるようになります。これにより、3D世界での各関節の正確な位置特定が可能となります。私たちは、ステレオUnrealEgoデータセット上で方法を評価し、計算効率性が高いながらも以前の手法よりも大幅に性能が向上していることを示しました。具体的には、最高峰の手法と比較してモデルパラメータが7.9%、FLOPsが13.1%しか増えていないにもかかわらずMPJPE(平均関節位置誤差)が27.4mm(45%改善)向上しています。驚くべきことに、適切な学習設定のもとで、第一段階の姿勢提案ネットワークですら以前の手法よりも優れた性能を達成できることを見出しました。また、私たちの方法は単眼設定にもシームレスに拡張できることを示しており、SceneEgoデータセット上での最高峰性能を達成しています。具体的には、最良既存手法と比較してモデルパラメータが60.7%、FLOPsが36.4%しか増えていないにもかかわらずMPJPEが25.5mm(21%改善)向上しています。コードは以下のURLから入手可能です:https://github.com/ChenhongyiYang/egoposeformer .