WHAM: 정확한 3D 동작을 갖춘 세계 기반 인간 재구성

비디오에서 3차원 인간 운동을 추정하는 기술은 급속히 발전해왔으나, 현재의 방법들은 여전히 몇 가지 핵심적인 한계를 가지고 있다. 첫째, 대부분의 기법은 카메라 좌표계 내에서 인간의 자세를 추정한다. 둘째, 전 세계 좌표계에서 인간을 추정하는 기존 연구는 일반적으로 평평한 지면을 가정하며, 이로 인해 발의 미끄러짐 현상이 발생한다. 셋째, 가장 정확한 방법들은 계산 비용이 매우 높은 최적화 파이프라인에 의존하여, 실시간 적용이 어렵고 주로 오프라인 처리에 한정된다. 넷째, 기존의 비디오 기반 방법들은 예상과 달리 단일 프레임 기반 방법보다 훨씬 낮은 정확도를 보인다. 이에 우리는 WHAM(World-grounded Humans with Accurate Motion)을 제안하여 이러한 한계를 극복한다. WHAM은 비디오에서 전 세계 좌표계 내에서 정확하고 효율적으로 3차원 인간 운동을 재구성할 수 있다. WHAM은 모션 캡처 데이터를 활용해 2차원 키포인트 시계열을 3차원으로 올리는 방식을 학습하며, 이 과정에서 비디오 특징과 융합함으로써 운동의 맥락 정보와 시각적 정보를 통합한다. 또한 SLAM 기법을 통해 추정한 카메라 각속도와 인간의 운동 정보를 결합하여 신체의 전 세계적 궤적을 추정한다. 이를 바탕으로 접촉 인식형 궤적 정밀화 기법을 도입함으로써, WHAM은 계단 오르기와 같은 다양한 환경에서도 인간의 운동을 정확히 포착할 수 있다. WHAM은 다양한 실외 환경 기준에서 기존의 모든 3차원 인간 운동 복원 기법을 능가하며, 우수한 성능을 입증하였다. 코드는 연구 목적을 위해 http://wham.is.tue.mpg.de/ 에 공개될 예정이다.