
3D 인간 자세 추정(3D HPE) 작업은 2D 이미지 또는 영상을 사용하여 3D 공간에서 인간의 관절 좌표를 예측하는 것을 목표로 한다. 최근 딥러닝 기반의 방법들이 급속한 발전을 이루었음에도 불구하고, 이들 대부분은 이용 가능한 텍스트와 인간에 대한 자연스럽고 타당한 지식 간의 결합 능력을 무시하고 있으며, 이로 인해 3D HPE 작업을 안내하는 데 유용한 암묵적 지도 정보를 놓치고 있다. 또한 기존 연구들은 주로 전체 인체의 관점에서 이 작업을 다루며, 각각의 신체 부위에 숨겨진 세밀한 지도 정보를 간과하는 경향이 있다. 이를 해결하기 위해 우리는 확산 모델 기반의 3D HPE를 위한 새로운 세밀한 프롬프트 주도 노이즈 제거기(Fine-Grained Prompt-Driven Denoiser)를 제안한다. 이를 \textbf{FinePOSE}라 명명한다. FinePOSE는 확산 모델의 역과정을 강화하는 세 가지 핵심 블록으로 구성된다. (1) 세밀한 부위 인지 프롬프트 학습(FPP) 블록은 가용한 텍스트와 신체 부위에 대한 자연스러운 지식을 학습 가능한 프롬프트와 결합하여 세밀한 부위 인지 프롬프트를 생성함으로써 암묵적 지도를 모델링한다. (2) 세밀한 프롬프트-자세 통신(FPC) 블록은 학습된 부위 인지 프롬프트와 자세 간의 세밀한 상호작용을 구축하여 노이즈 제거 품질을 향상시킨다. (3) 프롬프트 주도 타임스탬프 스타일라이제이션(PTS) 블록은 학습된 프롬프트 임베딩과 노이즈 수준과 관련된 시계열 정보를 통합하여 각 노이즈 제거 단계에서 적응적인 조정을 가능하게 한다. 공개된 단일 인체 자세 추정 데이터셋에서 실시한 광범위한 실험 결과, FinePOSE는 최신 기술 대비 우수한 성능을 보였다. 또한 FinePOSE를 다중 인체 자세 추정에 확장하였으며, EgoHumans 데이터셋에서 평균 MPJPE 34.3mm를 달성하여 복잡한 다중 인체 시나리오를 처리할 수 있는 잠재력을 입증하였다. 코드는 https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024 에서 공개되어 있다.