3달 전
THUNDR: 마커를 활용한 트랜스포머 기반 3차원 HUmaN 재구성
Mihai Zanfir, Andrei Zanfir, Eduard Gabriel Bazavan, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu

초록
우리는 단일 RGB 이미지로부터 사람의 3D 자세와 형태를 재구성하기 위한 트랜스포머 기반의 딥 뉴럴 네트워크 방법론인 THUNDR를 제안한다. 본 방법론의 핵심은 중간 3D 마커 표현을 활용하는 것으로, 모델-자유 출력 아키텍처의 예측 능력과 GHUM과 같은 통계적 인간 표면 모델의 정규화 및 체형 보존 성질을 결합하고자 한다. GHUM은 최근 도입된 표현력이 풍부한 전신 통계적 3D 인간 모델로, 엔드투엔드로 학습된 모델이다. 본 연구에서 제안하는 새로운 트랜스포머 기반 예측 파이프라인은 작업에 관련된 이미지 영역에 집중할 수 있으며, 자기지도 학습(self-supervised) 환경을 지원하고, 결과가 인간의 체형 특성과 일치하도록 보장한다. 우리는 Human3.6M과 3DPW 데이터셋에서 완전히 지도 학습 및 자기지도 학습 모델 모두에서 3D 인간 형태, 관절 위치, 전역 이동을 추정하는 작업에서 최신 기준(SOTA) 성능을 달성하였다. 또한, 자연 환경에서 촬영된 어려운 자세에 대해서도 매우 우수한 3D 재구성 성능을 관측하였다.