11日前

Direct Multi-view Multi-person 3D Pose Estimation

Tao Wang, Jianfeng Zhang, Yujun Cai, Shuicheng Yan, Jiashi Feng
Direct Multi-view Multi-person 3D Pose Estimation
要約

複数視点画像から複数人の3Dポーズを推定するための「マルチビュー・ポーズ変換器(Multi-view Pose transformer: MvP)」を提案する。従来の手法が高コストなボリュメトリック表現からの3D関節位置の推定や、複数の2Dポーズ検出結果から各人物の3Dポーズを再構成するといった中間タスクに依存しているのに対し、MvPは中間タスクを必要とせず、洗練され且つ効率的な方法で複数人の3Dポーズを直接回帰する。具体的には、骨格関節を学習可能なクエリ埋め込みとして表現し、入力画像からの複数視点情報を段階的に注目・推論することで、実際の3D関節位置を直接推定する。このシンプルなパイプラインの精度を向上させるために、MvPは複数人の骨格関節のクエリ埋め込みを簡潔に表現する階層的構成を提案するとともに、入力に依存するクエリ適応手法を導入している。さらに、各関節に対してより正確に跨視点情報を統合するため、新しい幾何学的ガイド付きアテンション機構「プロジェクティブアテンション(projective attention)」を設計した。また、視点依存のカメラ幾何情報を特徴表現に統合するため、新しい「RayConv演算」を導入し、プロジェクティブアテンションの性能を向上させている。実験により、MvPは複数のベンチマークで最先端の手法を上回りつつ、大幅に効率性に優れていることを示した。特に、挑戦的なPanopticデータセットにおいて92.3%のAP25を達成し、従来の最良手法[36]を9.8%向上させた。MvPは汎用性が高く、SMPLモデルで表現される人間メッシュの復元にも拡張可能であり、複数人の身体形状モデリングに有用である。コードおよびモデルは、https://github.com/sail-sg/mvp にて公開されている。

Direct Multi-view Multi-person 3D Pose Estimation | 最新論文 | HyperAI超神経