PISEP^2: Pseudo Image Sequence Evolution 기반 3D 자세 예측

포즈 예측은 이전 포즈의 시퀀스를 주어진 창(window)으로부터 미래의 포즈를 예측하는 것입니다. 본 논문에서는 3차원 관절 좌표 시퀀스를 사용하여 포즈를 예측하는 새로운 문제를 제안합니다. 기존의 모션 캡처(Mocap) 프레임을 기반으로 하는 전통적인 포즈 예측과 달리, 이 문제는 간단한 센서로 데이터를 캡처할 수 있어 실제 응용 분야에서 편리하게 사용할 수 있습니다. 또한, 이 새로운 문제를 해결하기 위한 새로운 프레임워크인 PISEP² (Pseudo Image Sequence Evolution based 3D Pose Prediction, 가상 이미지 시퀀스 진화 기반 3차원 포즈 예측)을 제시합니다.특히, 관절 좌표 시퀀스를 이미지 시퀀스로 변환하여 골격 표현(skeletal representation)을 제안하는데, 이를 통해 서로 다른 관절 간의 다양한 상관관계(correlations)를 모델링할 수 있습니다. 이러한 이미지 기반 골격 표현을 이용하여 우리는 포즈 예측을 이미지 시퀀스의 진화로 모델링합니다. 또한, 비재귀적(non-recursive) 방식으로 디코더(decoders)를 분리하여 한 단계에서 모든 미래의 포즈를 예측하는 새로운 추론 네트워크(inference network)를 제안합니다. 재귀적 순차-순차(recursive sequence-to-sequence) 모델과 비교하여, 우리는 계산 효율성을 크게 향상시키고 오류 누적(error accumulation)을 피할 수 있습니다.두 개의 벤치마크 데이터셋(G3D와 FNTU 등)에서 광범위한 실험을 수행한 결과, 제안된 방법이 두 데이터셋 모두에서 최신 연구 성과(state-of-the-art performance)를 달성하였으며, 이는 우리의 방법이 효과적임을 입증합니다.