
단일 깊이 이미지에서의 3D 손 포즈 추정은 컴퓨터 비전과 인간-컴퓨터 상호작용 분야에서 중요한 주제입니다. 딥 러닝 방법의 발전으로 정확도가 크게 향상되었지만, 인간 손의 복잡한 구조 때문에 여전히 해결하기 어려운 문제입니다. 기존의 딥 러닝 방법들은 손 구조의 공간 정보를 잃거나 관절 좌표에 대한 직접적인 감독이 부족한 경우가 많습니다. 본 논문에서는 이러한 두 가지 문제를 해결하기 위해 새로운 픽셀 단위 회귀(Pixel-wise Regression) 방법을 제안합니다. 이 방법은 공간 형태 표현(Spatial-Form Representation, SFR)과 미분 가능한 디코더(Differentiable Decoder, DD)를 사용합니다. 우리의 방법을 사용하기 위해 모델을 구축하였으며, 이 모델에서는 특정 SFR와 그에 연관된 DD를 설계하여 3D 관절 좌표를 평면 좌표와 깊이 좌표로 나누고, 각각을 처리하기 위한 평면 회귀(Plane Regression, PR) 모듈과 깊이 회귀(Depth Regression, DR) 모듈을 사용하였습니다. 우리는 제안한 방법이 기존 방법들보다 더 우수한 결과를 얻는다는 것을 보여주기 위해 축소 실험(ablation experiment)을 수행하였습니다. 또한 다양한 학습 전략이 학습된 SFRs와 결과에 어떻게 영향을 미치는지를 탐구하였습니다. 세 개의 공개 데이터셋에서 수행된 실험은 우리의 모델이 기존 최신 모델들과 비교할 만하며, 한 데이터셋에서는 평균 3D 관절 오류를 25% 줄일 수 있음을 입증하였습니다.