스켈레톤-그래프: 딥 스파티오-타임스페이셜 그래프 CNN을 이용한 2D 관측에서의 장기 3D 동작 예측

자율 주행, 증강 현실(Augmented Reality), 가상 현실(Virtual Reality)과 같은 여러 응용 분야는 3차원 인간 자세의 정밀한 예측을 요구한다. 최근 이 분야에서는 관측된 2차원 자세로부터 3차원 자세를 예측하는 새로운 문제 제기가 이루어졌다. 본 연구에서는 2차원 자세로부터 단일 패스(single pass)로 미래의 3차원 골격 자세를 예측하는 깊은 스파티오-시계열 그래프 CNN 모델인 Skeleton-Graph를 제안한다. 기존의 연구들과 달리, Skeleton-Graph는 골격 관절 간의 상호작용을 골격의 공간적 구성(configuration)을 활용하여 모델링하는 데 초점을 맞춘다. 이는 문제를 그래프 구조로 포맷하고, 적절한 그래프 인접 커널(Adjacency Kernel)을 학습함으로써 구현된다. 설계상으로 Skeleton-Graph는 기존 방법들과 달리 장기적인 예측에서도 발산(divergence) 없이 미래 3차원 자세를 예측할 수 있다. 또한 우리는 장기 예측에서 예측값의 발산을 측정하는 새로운 지표를 도입하였다. 실험 결과, 기존 방법 대비 GTA-IM 및 PROX 데이터셋에서 각각 FDE(Final Displacement Error)는 최소 27% 향상되고, ADE(Average Displacement Error)는 4% 개선되었으며, 장기 운동 예측에서 각각 88% 및 93%의 발산 감소를 달성하였다. 코드는 https://github.com/abduallahmohamed/Skeleton-Graph.git 에서 공개되어 있다.