
초록
본 연구에서는 자연 환경에서 RGB 이미지로부터 3D 손 모양과 자세를 예측하는 첫 번째 엔드투엔드 딥 러닝 기반 방법을 제시합니다. 우리의 네트워크는 깊은 컨볼루션 인코더와 고정된 모델 기반 디코더의 연결로 구성됩니다. 입력 이미지가 주어지고, 독립적인 CNN으로부터 얻은 선택적으로 2D 관절 검출 결과가 제공될 경우, 인코더는 손과 시점 매개변수 집합을 예측합니다. 디코더는 두 가지 구성 요소를 가지고 있습니다: 손 매개변수로부터 3D 메시를 생성하는 사전 계산된 아티큘레이티드 메시 변형 손 모델(articulated mesh deformation hand model)과, 시점 매개변수에 의해 제어되는 재투영 모듈(re-projection module)입니다. 재투영 모듈은 생성된 손을 이미지 영역으로 투영합니다. 우리는 딥 러닝 프레임워크 내에서 손 모델에 인코딩된 모양과 자세 사전 지식을 사용하면 표준 벤치마크에서 이미지로부터 3D 자세 예측의 최신 성능을 달성할 수 있으며, 기하학적으로 유효하고 타당한 3D 재구성을 생성할 수 있음을 보여줍니다. 또한, 자연 환경에서 촬영된 이미지 데이터셋의 2D 관절 주석으로 이루어진 약한 감독 학습과, 제한적으로 이용 가능한 데이터셋의 3D 관절 주석으로 이루어진 완전한 감독 학습을 결합하여 자연 환경에서 촬영된 이미지에 대한 3D 모양과 자세 예측에 좋은 일반화 능력을 얻을 수 있음을 보여줍니다.