3달 전
시각적 3차원 인간 자세 및 형태를 위한 뉴럴 디센트
Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Zanfir, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu

초록
입력된 RGB 이미지로부터 사람의 3차원 자세와 형태를 재구성하기 위해 심층 신경망 기법을 제안한다. 본 연구에서는 최근 도입된 표현력이 풍부한 전신 통계적 3차원 인간 모델인 GHUM을 활용하며, 이 모델은 엔드투엔드 방식으로 학습되며, 자기지도 학습(self-supervised) 환경에서 자세와 형태 상태를 재구성하도록 학습한다. 본 연구의 핵심은 ‘HUmanNeural Descent(HUND)’라 불리는 ‘학습을 통해 학습하고 최적화하는’ 접근 방식으로, 모델 파라미터 학습 시 이차 미분(second-order differentiation)을 피하고, 테스트 시 정확한 의미론적 미분 가능 렌더링 손실을 최소화하기 위해 비용이 큰 상태 기반 경사 하강법(state gradient descent)을 회피한다. 대신, 자세와 형태 파라미터를 갱신하기 위해 새로운 순환 단계(recurrent stages)를 도입하여 손실을 효과적으로 최소화하는 동시에, 최종 성능을 보장하기 위해 메타 정규화(meta-regularization)를 수행한다. HUND는 학습과 테스트 간의 대칭성을 갖추고 있어, 자기지도 학습을 포함한 다양한 운영 환경을 원천적으로 지원하는 최초의 3차원 인간 감지 아키텍처이다. 다양한 실험을 통해 HUND가 H3.6M 및 3DPW와 같은 데이터셋에서 매우 경쟁력 있는 성능을 보이며, 실제 환경에서 수집한 복잡한 이미지에 대해서도 높은 품질의 3차원 재구성을 가능하게 함을 입증하였다.