단계적 접촉 인지 기반 글로벌 인간 운동 예측

장면 인지형 전신 인간 운동 예측은 가상현실, 로보틱스, 스포츠 등 다양한 응용 분야에서 핵심적인 기술로, 제공된 장면 맥락 내에서 인간의 경로와 자세 예측을 통합하는 작업을 포함하며, 이는 상당한 도전 과제를 수반한다.현재까지 장면 인지형 전신 운동 예측을 다룬 연구는 Mao 등(NeurIPS '22)의 논문뿐이며, 미래 장면 접촉점 예측과 전신 운동 추정을 계단식으로 연결하는 방식을 채택했다. 이들은 후자의 전신 운동 추정을 미래 경로와 자세에 대한 엔드투엔드 예측으로 수행한다. 그러나 본 연구에서는 이러한 엔드투엔드 접근 방식이 과제의 계층적(코어-투-파인, coarse-to-fine) 성격과 부합하지 않으며, 실험적으로 성능 저하를 초래함을 입증한다.이에 우리는 STAG(Stage-aware, Contact-aware Global Human Motion Forecasting)라는 새로운 3단계 파이프라인을 제안한다. 이는 3차원 환경에서 전신 인간 운동을 예측하기 위한 기법이다. 첫 번째 단계에서는 장면과 인간 간의 상호작용을 접촉점으로 간주한다. 두 번째 단계에서는 장면 내 인간 경로 예측을 수행하며, 인체 전체의 거시적 운동을 예측한다. 세 번째 및 마지막 단계에서는 추정된 접촉점을 고려하여, 경로를 보완할 수 있는 타당한 세부적인 관절 운동을 매칭한다.기존 최고 성능(SoA) 대비, STAG은 장면 인지형 GTA-IM 데이터셋에서 자세 예측 성능에 1.8%, 경로 예측 성능에 16.2%의 전반적인 개선을 달성했다. 철저한 아블레이션 연구를 통해 계단식 모델링이 엔드투엔드 접근보다 우수함을 입증하였다. 또한, 본 연구에서 새롭게 제안한 시간 변수인 '남은 시간(time-to-go)'의 중요성을 규명하였으며, 이는 장면 접촉점이나 목표 지점에 도달하는 데 남은 시간을 나타내는 것으로, 예측 정확도 향상에 기여한다. 특히 STAG는 장면 정보가 없는 데이터셋에도 일반화 가능성을 입증하며, 사회적 신호를 전혀 사용하지 않고도 CMU-Mocap 데이터셋에서 새로운 최고 성능을 달성하였다. 본 연구의 코드는 다음 링크에서 공개된다: https://github.com/L-Scofano/STAG