단일 컬러 이미지에서 3D 인간 자세와 형태 추정하기

이 연구는 단일 컬러 이미지에서 전체 인체의 3차원 자세와 형태를 추정하는 문제를 다룹니다. 이 작업은 일반적으로 반복 최적화 기반 솔루션이 우세하였으나, 합성곱 신경망(ConvNets)은 훈련 데이터 부족과 낮은 해상도의 3차원 예측으로 인해 어려움을 겪었습니다. 우리의 연구는 이러한 간극을 메우고자 하며, 효율적이고 효과적인 직접 예측 방법을 제안합니다. 이 방법은 합성곱 신경망을 기반으로 합니다. 우리 접근 방식의 핵심은 파라메트릭 통계적 인체 형태 모델(SMPL)을 엔드투엔드 프레임워크에 통합하는 것입니다. 이를 통해 매우 상세한 3차원 메시 결과를 얻을 수 있으며, 추정해야 하는 매개변수의 수가 적어 직접적인 네트워크 예측에 유리하게 만듭니다. 흥미롭게도, 우리는 이러한 매개변수가 2차원 키포인트와 마스크로부터만 안정적으로 예측될 수 있음을 보여줍니다. 이는 일반적인 2차원 인간 분석 ConvNets의 출력으로, 3차원 형태 지면 진실(Ground Truth)이 있는 이미지가 훈련에 필요하다는 거대한 요구 사항을 완화할 수 있습니다. 동시에, 훈련 시에는 미분 가능성을 유지하면서 추정된 매개변수로부터 3차원 메시를 생성하고, 각 꼭짓점별 3차원 손실 함수를 사용하여 표면에 대해 명시적으로 최적화합니다. 마지막으로, 미분 가능한 렌더링기를 사용하여 3차원 메시를 이미지로 투영함으로써, 투영과 2차원 주석(즉, 2차원 키포인트 또는 마스크) 사이의 일관성을 최적화하여 네트워크를 더욱 개선할 수 있습니다. 제안된 접근 방식은 이 작업에서 이전 베이스라인들을 능가하며, 단일 컬러 이미지에서 직접적인 3차원 형태 예측을 위한 매력적인 해결책을 제공합니다.