시간 인식 기반 정제를 활용한 비디오 기반 인간 자세 및 형태 복원

최근 몇 년 동안 단일 채널 RGB 이미지에서 인간의 자세와 형태를 복원하는 기술에 상당한 진전이 이루어졌지만, 비디오에서 높은 정확도와 시간적 일관성을 가진 3D 인간 운동을 얻는 것은 여전히 어려운 문제입니다. 기존의 비디오 기반 방법들은 전역 이미지 특징(global image features)에서 인간 운동을 재구성하려고 하는 경향이 있어, 세부 표현 능력이 부족하고 재구성 정확도를 제한합니다. 본 논문에서는 정확한 자세와 형태 복원을 위해 시간 인식적인 전역 및 지역 이미지 특징을 동시에 탐색하는 시간 인식 리파인망(TAR, Temporal-Aware Refining Network)을 제안합니다. 첫째, 전역 트랜스포머 인코더(global transformer encoder)가 도입되어 정적 특징 시퀀스(static feature sequences)로부터 시간 전역 특징(temporal global features)을 추출합니다. 둘째, 양방향 ConvGRU 네트워크(bidirectional ConvGRU network)가 고해상도 특징 맵(high-resolution feature maps) 시퀀스를 입력으로 받아, 고해상도를 유지하면서 인간 신체의 지역 운동(local motion of the human body)을 포착하는 시간 지역 특징 맵(temporal local feature maps)을 출력합니다. 마지막으로, 순환 리파인 모듈(recurrent refinement module)이 전역과 지역 시간 정보(global and local temporal information)를 활용하여 추정된 SMPL 매개변수(SMPL parameters)를 반복적으로 업데이트하여 정확하고 부드러운 결과를 달성합니다. 광범위한 실험 결과들이 3DPW, MPI-INF-3DHP, Human3.6M 등의 유명 벤치마크에서 이전 최신 방법들보다 TAR가 더 정확한 결과를 얻음을 입증하였습니다.