그래프 컨볼루션 시퀀스 청크를 위한 다중 척도 잔차 학습을 통한 인간 운동 예측

인간의 운동 예측을 위한 새로운 방법이 제안되었다. 이 방법은 시간적 및 공간적 의존성을 학습함으로써 운동 패턴을 예측하는 데 초점을 맞추고 있다. 최근에는 인간 신체를 더 높은 추상화 수준에서 모델링하기 위해 다중 규모 그래프(multiscale graphs)가 개발되었으며, 이는 보다 안정적인 운동 예측을 가능하게 했다. 그러나 기존의 방법들은 사전에 스케일 수준을 고정하고, 인간에 대한 사전 지식을 기반으로 공간적으로 가까운 관절을 결합하여 더 거친 스케일을 생성한다. 그러나 다양한 운동 시퀀스에서의 운동 패턴은 서로 다를 뿐만 아니라, 고정된 공간적 연결 관절 그래프에 완전히 부합하지 않는다. 또한 그래프 컨볼루션 기법은 모드 붕괴(mode collapse)라는 문제를 겪는데, 이는 예측된 자세가 움직임이 전혀 없는 평균 자세로 수렴하는 현상으로, 특히 장기 예측에서 두드러진다. 이러한 문제를 해결하기 위해 우리는 ResChunk를 제안한다. ResChunk는 개별 시퀀스 내 모든 관절 간의 쌍별 관계를 기반으로, 동적으로 상관관계가 있는 신체 구성 요소를 탐색하는 엔드투엔드 네트워크이다. ResChunk는 자기회귀적(auto-regressive) 방식으로 타겟 시퀀스의 청크(chunk) 간 잔차(residuals)를 학습함으로써 연속된 청크 간의 시간적 연결성을 강제한다. 따라서 ResChunk는 다중 수준에서 시퀀스의 동적 시공간 특징을 고려하는 시퀀스-투-시퀀스 예측 네트워크이다. CMU Mocap 및 Human3.6M이라는 두 가지 도전적인 벤치마크 데이터셋에서의 실험 결과, 제안된 방법이 운동 예측을 위한 시퀀스 정보를 효과적으로 모델링할 수 있음을 입증하며, 기존 기법들을 능가하여 새로운 최고 성능(state-of-the-art)을 달성하였다. 코드는 https://github.com/MohsenZand/ResChunk 에서 공개되어 있다.