8 天前
回到优化:基于扩散模型的零样本3D人体姿态估计
Zhongyu Jiang, Zhuoran Zhou, Lei Li, Wenhao Chai, Cheng-Yen Yang, Jenq-Neng Hwang

摘要
基于学习的方法在三维人体姿态估计(3D Human Pose Estimation, HPE)任务中已占据主导地位,其在大多数基准测试中的表现显著优于传统的基于优化的方法。然而,对于野外场景下的3D HPE任务,基于学习的模型仍面临巨大挑战,无论采用2D到3D提升、图像到3D映射,还是基于扩散模型的方法,其根本原因在于:训练好的网络隐式地学习了相机内参以及特定领域内的三维人体姿态分布,并通过统计平均的方式进行姿态估计。相比之下,基于优化的方法能够针对每个案例独立推断,因而能够预测出更为多样且复杂的野外场景下的人体姿态。为融合基于优化与基于学习方法的优势,本文提出了一种全新的零样本扩散优化(Zero-shot Diffusion-based Optimization, ZeDO)框架,用于解决跨域及野外场景下的3D人体姿态估计问题。所提出的多假设版本ZeDO在Human3.6M数据集上取得了当前最优(SOTA)性能,达到最小MPJPE为51.4毫米,且在整个过程中无需使用任何2D-3D或图像-3D配对数据进行训练。此外,其单假设版本在3DPW数据集上也实现了SOTA表现,跨数据集评估下的PA-MPJPE为40.3毫米,甚至超越了在3DPW数据集上进行训练的基于学习的方法。