3달 전

PoseNet3D: 지식 증류를 통한 시간적으로 일관된 3D 인간 자세 학습

Shashank Tripathi, Siddhant Ranade, Ambrish Tyagi, Amit Agrawal
PoseNet3D: 지식 증류를 통한 시간적으로 일관된 3D 인간 자세 학습
초록

2D 관절로부터 3D 인간 자세를 복원하는 것은 매우 제약이 없는 문제이다. 본 논문에서는 2D 관절을 입력으로 받아 3D 뼈대 및 SMPL 신체 모델 파라미터를 출력하는 새로운 신경망 프레임워크인 PoseNet3D를 제안한다. 학습 방법을 학생-선생님(teacher-student) 프레임워크로 설정함으로써, 학습 과정에서 쌍을 이룬 또는 비쌍의 3D 데이터, 모션 캡처 시퀀스, 깊이 이미지, 다중 시점 이미지와 같은 어떠한 3D 데이터도 사용하지 않는다. 먼저, 단지 2D 자세 데이터만을 사용하여 3D 뼈대를 출력하는 선생님 네트워크를 학습한다. 이 선생님 네트워크는 자신이 학습한 지식을 3D 자세를 SMPL 표현 방식으로 예측하는 학생 네트워크에 전달한다. 이후, 시간적 일관성, 자기 일관성, 그리고 적대적 손실을 활용하여 학생과 선생님 네트워크를 종단 간(end-to-end)으로 공동으로 미세 조정함으로써 각 네트워크의 정확도를 향상시킨다. Human3.6M 데이터셋을 활용한 3D 인간 자세 추정 실험 결과, 기존의 비지도 학습 방법 대비 3D 관절 예측 오차를 18% 감소시켰음을 확인하였다. 실제 환경(인더와일드) 데이터셋에 대한 정성적 결과는 복원된 3D 자세와 메쉬가 자연스럽고 현실감 있으며, 연속 프레임 간에 부드럽게 이어진다는 점을 보여준다.