17일 전

CrossFormer: 3차원 인간 자세 추정을 위한 크로스 시공간 트랜스포머

Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid Boussaid, Ibrahim Radwan
CrossFormer: 3차원 인간 자세 추정을 위한 크로스 시공간 트랜스포머
초록

3D 인간 자세 추정은 신체 부위 간의 기하학적 종속성을 인코딩하고 운동학적 제약을 적용함으로써 처리할 수 있다. 최근에는 Transformer가 공간적 및 시간적 도메인에서 관절 간의 장거리 종속성을 인코딩하는 데 활용되고 있다. 이러한 모델들은 장거리 종속성 처리에서 뛰어난 성능을 보였지만, 여러 연구에서 비전 Transformer의 국소성(locality) 향상이 필요하다는 점이 지적되었다. 본 연구에서는 프레임 간 미세한 변화를 효과적으로 포착하기 위해 신체 관절의 풍부한 표현(즉, 상호 특징 표현, inter-feature representation)을 가능하게 하는 새로운 자세 추정 Transformer를 제안한다. 구체적으로, 두 가지 새로운 상호작용 모듈인 Cross-Joint Interaction과 Cross-Frame Interaction을 통해 모델은 신체 관절 간의 국소적 및 전역적 종속성을 명시적으로 인코딩한다. 제안된 아키텍처는 대표적인 두 가지 3D 인간 자세 추정 데이터셋인 Human3.6과 MPI-INF-3DHP에서 최신 기준(SOTA) 성능을 달성하였다. 특히, 탐지된 2D 자세와 정답(ground-truth) 설정 조건에서 각각 PoseFormer과 비교했을 때, 제안하는 CrossFormer 방법은 성능을 각각 0.9%, 0.3% 향상시켰다.