17일 전
CrossFormer: 3차원 인간 자세 추정을 위한 크로스 시공간 트랜스포머
Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid Boussaid, Ibrahim Radwan

초록
3D 인간 자세 추정은 신체 부위 간의 기하학적 종속성을 인코딩하고 운동학적 제약을 적용함으로써 처리할 수 있다. 최근에는 Transformer가 공간적 및 시간적 도메인에서 관절 간의 장거리 종속성을 인코딩하는 데 활용되고 있다. 이러한 모델들은 장거리 종속성 처리에서 뛰어난 성능을 보였지만, 여러 연구에서 비전 Transformer의 국소성(locality) 향상이 필요하다는 점이 지적되었다. 본 연구에서는 프레임 간 미세한 변화를 효과적으로 포착하기 위해 신체 관절의 풍부한 표현(즉, 상호 특징 표현, inter-feature representation)을 가능하게 하는 새로운 자세 추정 Transformer를 제안한다. 구체적으로, 두 가지 새로운 상호작용 모듈인 Cross-Joint Interaction과 Cross-Frame Interaction을 통해 모델은 신체 관절 간의 국소적 및 전역적 종속성을 명시적으로 인코딩한다. 제안된 아키텍처는 대표적인 두 가지 3D 인간 자세 추정 데이터셋인 Human3.6과 MPI-INF-3DHP에서 최신 기준(SOTA) 성능을 달성하였다. 특히, 탐지된 2D 자세와 정답(ground-truth) 설정 조건에서 각각 PoseFormer과 비교했을 때, 제안하는 CrossFormer 방법은 성능을 각각 0.9%, 0.3% 향상시켰다.