8日前

最適化に戻る：拡散ベースのゼロショット3D人体ポーズ推定

Zhongyu Jiang, Zhuoran Zhou, Lei Li, Wenhao Chai, Cheng-Yen Yang, Jenq-Neng Hwang

要約

学習ベースの手法は、従来の最適化ベース手法と比較して、多くのベンチマークにおいて顕著に優れた性能を発揮し、3次元人体ポーズ推定（3D HPE）の分野で主流を占めている。しかし、実環境（in the wild）における3D HPEは、依然として学習ベースのモデルにとって最大の課題である。2D-3Dリフティング、画像から3Dへの変換、または拡散モデル（diffusion-based）を用いた手法にかかわらず、訓練されたネットワークはカメラの内部パラメータやドメイン特有の3次元人体ポーズ分布を暗黙的に学習しており、統計的平均に基づいてポーズを推定するため、実環境における多様性や複雑性を十分に捉えきれない。一方、最適化ベースの手法は個別ケースごとに推定を行うため、実環境におけるより多様で洗練された人体ポーズを予測可能である。本研究では、最適化ベースと学習ベースの両手法の利点を統合し、クロスドメインおよび実環境における3D HPEの課題を解決するため、ゼロショット拡散型最適化（Zero-shot Diffusion-based Optimization, ZeDO）パイプラインを提案する。本手法の多仮説型ZeDOは、2D-3Dまたは画像-3Dペアの学習を一切行わずに、Human3.6Mデータセットにおいて最先端（SOTA）の性能を達成し、最小MPJPEが51.4mmを記録した。また、単一仮説型ZeDOは、3DPWデータセットにおいてクロスデータセット評価でPA-MPJPE 40.3mmを達成し、3DPWデータセットで訓練された学習ベース手法をも上回る性能を示した。