
초록
단일 카메라 이미지 또는 2D 관절로부터의 3D 인간 자세 추정은 깊이 모호성과 가려진 관절 때문에 불완전한 문제입니다. 우리는 단일 입력으로부터의 3D 인간 자세 추정이 여러 가능한 해가 존재하는 역 문제임을 주장합니다. 본 논문에서는 2D 관절로부터 여러 가능한 3D 자세 가설을 생성하기 위한 새로운 접근법을 제안합니다. 기존의 딥러닝 접근법들이 단일 모드 가우스 분포를 기반으로 평균 제곱 오차를 최소화하는 것과 달리, 우리의 방법은 다중 모드 혼합 밀도 네트워크(Mixture Density Networks)를 기반으로 여러 가능한 3D 자세 가설을 생성할 수 있습니다. 실험 결과, 우리의 접근법으로 추정된 3D 자세는 2D 재투영에서 일관성을 보이는 것으로 나타났으며, 이는 2D-3D 역 문제에 대해 여러 해가 존재한다는 우리의 주장을 뒷받침합니다. 또한, Human3.6M 데이터셋에서 최고의 가설과 다중 시점 설정 모두에서 최신 성능을 보였으며, MPII와 MPI-INF-3DHP 데이터셋에서의 테스트를 통해 모델의 일반화 능력을 입증하였습니다. 우리의 코드는 프로젝트 웹사이트에서 제공됩니다.