HyperAIHyperAI

Command Palette

Search for a command to run...

最適化に戻る:拡散ベースのゼロショット3D人体ポーズ推定

Zhongyu Jiang Zhuoran Zhou Lei Li Wenhao Chai Cheng-Yen Yang Jenq-Neng Hwang

概要

学習ベースの手法は、従来の最適化ベース手法と比較して、多くのベンチマークにおいて顕著に優れた性能を発揮し、3次元人体ポーズ推定(3D HPE)の分野で主流を占めている。しかし、実環境(in the wild)における3D HPEは、依然として学習ベースのモデルにとって最大の課題である。2D-3Dリフティング、画像から3Dへの変換、または拡散モデル(diffusion-based)を用いた手法にかかわらず、訓練されたネットワークはカメラの内部パラメータやドメイン特有の3次元人体ポーズ分布を暗黙的に学習しており、統計的平均に基づいてポーズを推定するため、実環境における多様性や複雑性を十分に捉えきれない。一方、最適化ベースの手法は個別ケースごとに推定を行うため、実環境におけるより多様で洗練された人体ポーズを予測可能である。本研究では、最適化ベースと学習ベースの両手法の利点を統合し、クロスドメインおよび実環境における3D HPEの課題を解決するため、ゼロショット拡散型最適化(Zero-shot Diffusion-based Optimization, ZeDO)パイプラインを提案する。本手法の多仮説型ZeDOは、2D-3Dまたは画像-3Dペアの学習を一切行わずに、Human3.6Mデータセットにおいて最先端(SOTA)の性能を達成し、最小MPJPEが51.4mmを記録した。また、単一仮説型ZeDOは、3DPWデータセットにおいてクロスデータセット評価でPA-MPJPE 40.3mmを達成し、3DPWデータセットで訓練された学習ベース手法をも上回る性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています