
초록
우리는 Non-Rigid Structure from Motion (NRSfM)에서 지식을 추출하여 3D 포즈 추정기를 학습하는 방법을 제안합니다. 본 방법은 오직 2D 랜드마크 주석만을 사용하며, 3D 데이터, 다중 시점/시간 영상, 또는 객체 특이적 사전 정보가 필요하지 않습니다. 이는 감독된 방법에서 주요 문제 중 하나인 데이터 부족 문제를 완화시킵니다. NRSfM을 교사로 사용할 때의 도전 과제는 2D 투영에 강한 모호성이 있을 경우 깊이 재구성이 종종 불량하다는 것입니다. 이러한 잘못된 깊이를 하드 타겟으로 직접 사용하면 학생 모델에 부정적인 영향을 미칠 수 있습니다. 대신, 우리는 NRSfM에서 사용되는 비용 함수와 깊이 예측을 연결하는 새로운 손실 함수를 제안합니다. 이를 통해 학생 포즈 추정기는 이미지 특징과 연관시키면서 깊이 오류를 줄일 수 있는 자유도를 얻습니다. H3.6M 데이터셋에서 검증한 결과, 우리 학습 3D 포즈 추정 네트워크는 NRSfM 방법보다 더 정확한 재구성을 달성하였습니다. 또한, 상당히 적은 감독 정보를 사용함에도 불구하고 다른 약간 감독된 방법들보다 우수한 성능을 보였습니다.