고품질 인간 운동 예측을 위한 다음 단계로의 점진적 개선된 초기 추정치 생성

이 논문은 관측된 자세를 바탕으로 미래의 인간 자세를 정확하게 예측하는 고품질의 인간 운동 예측 방법을 제안한다. 본 연구의 핵심 아이디어는 미래 자세에 대한 우수한 초기 추정값이 예측 정확도 향상에 매우 유용하다는 관찰에서 비롯된다. 이를 바탕으로, 먼저 우수한 초기 추정값을 계산하는 init-prediction 네트워크와, 그 추정값을 기반으로 목표 미래 자세를 예측하는 formal-prediction 네트워크를 포함하는 새로운 이단계 예측 프레임워크를 제안한다. 더 중요한 점은 이 아이디어를 확장하여, 각 단계가 다음 단계의 초기 추정값을 예측하는 다단계 예측 프레임워크를 설계했다는 점이다. 이러한 설계는 추가적인 성능 향상을 가져온다. 각 단계에서의 예측 작업을 수행하기 위해, 공간적 밀집 그래프 컨볼루션 네트워크(Spatial Dense Graph Convolutional Networks, S-DGCN)와 시간적 밀집 그래프 컨볼루션 네트워크(Temporal Dense Graph Convolutional Networks, T-DGCN)를 결합한 네트워크를 제안한다. 두 네트워크를 교차하여 실행함으로써, 전체 자세 시퀀스의 전역 수용 영역(global receptive field)을 통해 시공간적 특징을 효과적으로 추출할 수 있다. 위에서 제안한 모든 설계 요소들이 유기적으로 작용함으로써, 기존 방법들에 비해 뚜렷한 성능 향상을 달성한다. Human3.6M에서는 6~7%, CMU-MoCap에서는 5~10%, 3DPW에서는 13~16%의 성능 향상을 기록하였다.