HyperAIHyperAI
vor 7 Tagen

Zurück zur Optimierung: Diffusionsbasierte zero-shot 3D-Human-Pose-Schätzung

Zhongyu Jiang, Zhuoran Zhou, Lei Li, Wenhao Chai, Cheng-Yen Yang, Jenq-Neng Hwang
Zurück zur Optimierung: Diffusionsbasierte zero-shot 3D-Human-Pose-Schätzung
Abstract

Lernbasierte Methoden haben die Aufgabe der 3D-Menschenpose-Schätzung (3D HPE) dominiert und zeigen in den meisten Benchmarks im Vergleich zu traditionellen optimierungsbasierenden Methoden deutlich bessere Leistungen. Dennoch stellt die 3D-HPE in natürlichen Umgebungen (in the wild) weiterhin die größte Herausforderung für lernbasierte Modelle dar – seien es 2D-zu-3D-Aufhebungsansätze, Bild-zu-3D-Methoden oder diffusionbasierte Ansätze. Dies liegt daran, dass die trainierten Netzwerke implizit Kamerainnere Parameter und domänenspezifische Verteilungen von 3D-Menschenpose lernen und die Pose durch statistische Mittelwerte schätzen. Im Gegensatz dazu schätzen optimierungsbasierende Methoden Ergebnisse fallweise, wodurch sie eine vielfältigere und komplexere Vielfalt an menschlichen Posen in natürlichen Szenarien vorhersagen können. Durch die Kombination der Vorzüge beider Ansätze stellen wir den \textbf{Ze}ro-shot \textbf{D}iffusion-based \textbf{O}ptimization (\textbf{ZeDO})-Pipeline für die 3D-HPE vor, um die Herausforderungen der cross-domain- und in-the-wild-3D-HPE zu bewältigen. Unser mehrhypothetischer \textit{\textbf{ZeDO}}-Ansatz erreicht auf dem Human3.6M-Datensatz die derzeit beste (SOTA) Leistung mit einem minMPJPE von 51,4 mm, ohne dass dabei jemals 2D-3D- oder Bild-3D-Paare im Training verwendet wurden. Darüber hinaus erreicht unser einhypothetischer \textit{\textbf{ZeDO}}-Ansatz auf dem 3DPW-Datensatz SOTA-Leistung mit einem PA-MPJPE von 40,3 mm bei cross-dataset-Evaluation – sogar besser als lernbasierte Methoden, die auf 3DPW trainiert wurden.