공간-시간 분리형 그래프 컨볼루션 네트워크를 활용한 자세 예측

인간 자세 예측은 구조화된 시계열 데이터를 다루는 복잡한 과제로, 다양한 잠재적 응용 가능성으로 인해 점점 더 많은 주목을 받고 있다. 기존 연구는 주로 시간 차원을 시계열로 다루고, 인체 관절 간의 상호작용을 운동학적 트리 또는 그래프 구조로 모델링하였다. 이러한 접근은 두 가지 측면을 분리하여 관련 분야의 발전을 활용하는 데 기여했지만, 동시에 인간 자세의 복잡한 관절 공간-시간 동역학에 대한 이해를 제한하는 결과를 초래하였다. 본 연구에서는 인간 자세 동역학을 단일 그래프 프레임워크 내에서 그래프 컨볼루션 네트워크(GCN)만을 사용하여 모델링하는 새로운 공간-시간 분리형 그래프 컨볼루션 네트워크(STS-GCN)를 제안한다. STS-GCN은 처음으로 시간적 변화와 공간적 관절 상호작용을 모두 하나의 그래프 구조 내에서 통합적으로 모델링함으로써 운동과 공간적 상관관계 간의 상호작용을 가능하게 한다. 동시에 STS-GCN은 세계 최초의 공간-시간 분리형 GCN으로, 공간-시간 그래프 연결성을 공간 유사성 행렬과 시간 유사성 행렬로 분해한다. 이는 공간-시간 간의 상호작용을 제한하지만, 모든 관절-관절 간 및 시간-시간 간의 완전한 상관관계를 유지할 수 있도록 한다. 두 유사성 행렬은 엔드투엔드로 학습되며, 그 결과로 형성된 연결 구조는 전통적인 운동학적 트리나 선형 시간 시계열과는 크게 다름을 보인다. 인간3.6M [Ionescu 등, TPAMI'14], AMASS [Mahmood 등, ICCV'19], 3DPW [Von Marcard 등, ECCV'18] 세 가지 최신이고 복잡하며 대규모 기준 데이터셋에서의 실험 평가 결과, STS-GCN은 기존 최고 성능 기법 [Mao 등, ECCV'20]을 평균적으로 32% 이상 초과하며, 가장 어려운 장기 예측에서 뛰어난 성능을 발휘한다. 또한 모델의 파라미터 수는 해당 기법의 1.7%에 불과하다. 우리는 실험 결과를 정성적으로 설명하며, 분해된 관절-관절 및 시간-시간 학습된 그래프 연결 구조를 통해 그래프 내 상호작용의 특성을 시각적으로 제시한다.본 연구의 소스 코드는 다음 링크에서 공개되어 있습니다: https://github.com/FraLuca/STSGCN