최적화로 돌아가기: 확산 기반 제로샷 3D 인간 자세 추정

기계학습 기반 방법은 기존의 최적화 기반 방법에 비해 대부분의 벤치마크에서 훨씬 우수한 성능을 보이며 3D 인간 자세 추정(HPE) 과제에서 주도적인 위치를 차지하고 있다. 그러나 자연 환경에서의 3D HPE는 여전히 기계학습 기반 모델에게 가장 큰 도전 과제로 남아 있다. 2D-3D 리프팅, 이미지-3D 변환, 확산 기반 방법을 포함하여 어떤 접근 방식이든, 훈련된 네트워크는 카메라 내부 파라미터와 도메인 기반 3D 인간 자세 분포를 암묵적으로 학습하게 되며, 통계적 평균을 기반으로 자세를 추정한다. 반면, 최적화 기반 방법은 각 사례별로 결과를 추정하기 때문에 자연 환경에서 보다 다양한 고도의 인간 자세를 예측할 수 있다. 이러한 최적화 기반과 기계학습 기반 방법의 장점을 결합함으로써, 우리는 도메인 간 및 자연 환경에서의 3D HPE 문제를 해결하기 위한 \textbf{Ze}ro-shot \textbf{D}iffusion-based \textbf{O}ptimization (\textbf{ZeDO}) 파이프라인을 제안한다. 다중 가설 기반의 \textit{\textbf{ZeDO}}는 2D-3D 또는 이미지-3D 쌍의 어떤 훈련도 없이 Human3.6M 데이터셋에서 최신 기준(SOTA) 성능을 달성하며, minMPJPE는 51.4mm를 기록했다. 또한 단일 가설 기반의 \textit{\textbf{ZeDO}}는 3DPW 데이터셋에서 교차 데이터셋 평가에서 PA-MPJPE 40.3mm의 SOTA 성능을 기록하였으며, 3DPW 데이터셋에 대해 훈련된 기계학습 기반 방법들조차도 이를 초월하였다.