17일 전
(Fusionformer): 3D 인간 자세 추정을 위한 Transformer 기반 융합 네트워크를 이용한 공동 운동 유사성 탐구
Xinwei Yu, Xiaohua Zhang

초록
현재 3D 인간 자세 추정 작업을 위한 여러 방법들은 공간적 및 시간적 상관관계를 통해 2D-3D 투영 규칙을 학습하는 데 초점을 맞추고 있다. 그러나 기존의 방법들은 시간 도메인에서 전신 관절의 전반적인 특징을 모델링하지만, 개별 관절의 운동 궤적을 무시하는 경향이 있다. 최근 연구[29]는 서로 다른 관절 간에 운동 특성이 다름을 고려하여 각 관절의 시간적 관계를 별도로 다루는 방식을 제안하였다. 그러나 우리는 특정 동작 상황에서는 서로 다른 관절들이 동일한 움직임 경향을 보임을 발견하였다. 이를 바탕으로 본 연구에서 제안하는 Fusionformer 방법은 공간-시간 모듈을 기반으로 자가 궤적 모듈(self-trajectory module)과 상호 궤적 모듈(mutual-trajectory module)을 도입하였다. 이후, 전역 공간-시간 특징과 국소 관절 궤적 특징을 병렬적으로 선형 네트워크를 통해 융합하였다. 또한, 잘못된 2D 자세가 3D 투영에 미치는 영향을 제거하기 위해, 최종적으로 3D 투영의 일관성을 균형 있게 유지할 수 있도록 자세 보정 네트워크( pose refinement network)를 도입하였다. 더불어, 제안한 방법을 두 가지 벤치마크 데이터셋(Human3.6M, MPI-INF-3DHP)에서 평가하였다. 기준 모델인 PoseFormer과 비교했을 때, Human3.6M 데이터셋에서 MPJPE 기준 2.4%, P-MPJPE 기준 4.3%의 성능 향상을 확인할 수 있었다.