3달 전

시각적 3차원 인간 자세 및 형태를 위한 뉴럴 디센트

Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Zanfir, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu
시각적 3차원 인간 자세 및 형태를 위한 뉴럴 디센트
초록

입력된 RGB 이미지로부터 사람의 3차원 자세와 형태를 재구성하기 위해 심층 신경망 기법을 제안한다. 본 연구에서는 최근 도입된 표현력이 풍부한 전신 통계적 3차원 인간 모델인 GHUM을 활용하며, 이 모델은 엔드투엔드 방식으로 학습되며, 자기지도 학습(self-supervised) 환경에서 자세와 형태 상태를 재구성하도록 학습한다. 본 연구의 핵심은 ‘HUmanNeural Descent(HUND)’라 불리는 ‘학습을 통해 학습하고 최적화하는’ 접근 방식으로, 모델 파라미터 학습 시 이차 미분(second-order differentiation)을 피하고, 테스트 시 정확한 의미론적 미분 가능 렌더링 손실을 최소화하기 위해 비용이 큰 상태 기반 경사 하강법(state gradient descent)을 회피한다. 대신, 자세와 형태 파라미터를 갱신하기 위해 새로운 순환 단계(recurrent stages)를 도입하여 손실을 효과적으로 최소화하는 동시에, 최종 성능을 보장하기 위해 메타 정규화(meta-regularization)를 수행한다. HUND는 학습과 테스트 간의 대칭성을 갖추고 있어, 자기지도 학습을 포함한 다양한 운영 환경을 원천적으로 지원하는 최초의 3차원 인간 감지 아키텍처이다. 다양한 실험을 통해 HUND가 H3.6M 및 3DPW와 같은 데이터셋에서 매우 경쟁력 있는 성능을 보이며, 실제 환경에서 수집한 복잡한 이미지에 대해서도 높은 품질의 3차원 재구성을 가능하게 함을 입증하였다.