운동학 구조를 보존한 표현을 이용한 비지도 3D 인간 자세 추정

단일 카메라 이미지에서 3D 인간 자세를 추정하는 기술은 여러 인간 중심 응용 프로그램의 핵심 단계로서 상당한 주목을 받고 있습니다. 그러나 대규모 스튜디오 데이터셋을 사용하여 감독 아래 개발된 인간 자세 추정 모델의 일반화 능력에 대해서는 여전히 의문이 제기되고 있습니다. 이러한 모델들은 종종 미처 보지 못한 자연 환경에서 만족스럽지 않은 성능을 보이기 때문입니다. 약간의 지도를 활용하여 이 문제를 해결하기 위한 약간 지도 학습 모델들이 제안되었지만, 이러한 모델들의 성능은 2D 자세나 다중 시점 이미지 쌍과 같은 관련 작업에 대한 짝을 이루는 지도가 필요합니다.대조적으로, 우리는 어떠한 짝을 이루거나 이루어지지 않은 약한 지도도 제약하지 않는 새로운 운동학적 구조를 유지하는 비지도 3D 자세 추정 프레임워크를 제안합니다. 우리의 자세 추정 프레임워크는 기본 운동학적 3D 구조를 정의하는 최소한의 사전 지식에 의존하며, 예를 들어 고정된 표준 척도에서 뼈 길이 비율과 함께 골격 관절 연결 정보 등을 포함합니다. 제안된 모델은 순차적으로 적용되는 세 가지 다른 미분 가능한 변환, 즉 순방향 운동학(forward-kinematics), 카메라 투영(camera-projection) 및 공간 맵 변환(spatial-map transformation)을 사용합니다. 이 설계는 효과적인 자세 분리(disentanglement)를 유발하는 적합한 병목 현상을 생성할 뿐만 아니라 명시적인 잠재 임베딩-자세 매핑기(latent embedding to pose mapper)의 학습 없이 해석 가능한 잠재 자세 표현(latent pose representations)을 제공합니다.또한 불안정한 적대적 설정(adversarial setup) 없이, 우리는 디코더를 재활용하여 에너지 기반 손실(energy-based loss)을 형식화하였습니다. 이를 통해 실험실 환경 외에도 자연 환경에서 촬영된 동영상으로부터 학습할 수 있게 되었습니다. 포괄적인 실험 결과들은 Human3.6M 및 MPI-INF-3DHP 데이터셋에서 우리 모델의 최신 비지도 및 약간 지도 자세 추정 성능을 입증하였습니다. 또한 미처 보지 못한 환경에서 얻은 질적 결과들은 우리의 우수한 일반화 능력을 더욱 확립하였습니다.