SPEC: 추정된 카메라를 활용한 자연환경에서의 사람 탐지

실제 환경에서 촬영된 이미지에는 카메라 파라미터 정보가 부족하기 때문에, 기존의 3D 인체 자세 및 형태(HPS) 추정 방법들은 몇 가지 단순화된 가정을 내세운다. 즉, 약한 투영(weak-perspective projection), 일정한 큰 초점 거리, 그리고 카메라 회전 각도가 0이라는 가정이다. 이러한 가정은 종종 현실과 맞지 않으며, 우리는 정량적·정성적 분석을 통해 이러한 가정이 재구성된 3D 형태와 자세에 오차를 초래함을 입증한다. 이를 해결하기 위해 우리는 단일 이미지로부터 투시 카메라 파라미터를 추정하는 최초의 실외 환경용 3D HPS 방법인 SPEC를 제안한다. 이 방법은 더 정확한 3D 인체 재구성을 가능하게 한다. 먼저, 입력 이미지로부터 시야(field of view), 카메라 피치(pitch), 롤(roll)을 추정하는 신경망을 학습시킨다. 이 과정에서 기존 연구보다 보다 정확한 캘리브레이션을 달성하기 위해 새로운 손실 함수를 도입한다. 그 후, 카메라 캘리브레이션 정보를 이미지 특징과 결합하여 3D 인체 형태와 자세를 회귀(regress)하는 새로운 네트워크를 학습시킨다. SPEC는 기존 표준 벤치마크(3DPW)뿐 아니라, 더 도전적인 카메라 시점과 다양한 초점 거리를 포함하는 두 가지 새로운 데이터셋에서도 기존 기법보다 더 정확한 성능을 보였다. 특히, 실제 3D 인체 구조를 정확히 제공하는 새로운 사진 실사 합성 데이터셋(SPEC-SYN)과 캘리브레이션 정보 및 고품질 참조 인체를 포함하는 새로운 실외 데이터셋(SPEC-MTP)을 구축하였다. 정성적·정량적 분석을 통해 추론 시 카메라 파라미터를 알고 있음이 더 우수한 인체 모델 재구성에 기여함을 확인하였다. 코드 및 데이터셋은 연구 목적을 위해 https://spec.is.tue.mpg.de 에서 제공된다.