시공간 크로스 크로스 어텐션을 활용한 3D 인간 자세 추정

최근 트랜스포머 기반의 접근법은 3차원 인간 자세 추정에서 뛰어난 성과를 보여주고 있다. 그러나 관절 간 유사성 행렬을 계산하기 위해 계산 비용은 관절 수의 증가에 따라 제곱적으로 증가하는 문제를 안고 있다. 이러한 단점은 특히 전체 영상 시퀀스에 걸쳐 공간-시간적 상관관계를 고려해야 하는 영상 기반 자세 추정에서 더욱 심각해진다. 본 논문에서는 이러한 문제를 공간과 시간에 따라 상관관계 학습을 분해함으로써 해결하고, 새로운 공간-시간 크로스 크로스 어텐션(Spatio-Temporal Criss-cross attention, STC) 블록을 제안한다. 기술적으로 STC는 입력 특징을 채널 차원에 따라 균등하게 두 파트로 분할한 후, 각 파트에 대해 별도로 공간적 어텐션과 시간적 어텐션을 수행한다. 이후 어텐션 레이어의 출력을 연결함으로써, 동일한 프레임 내의 관절 간 상호작용과 동일한 궤적을 따르는 관절 간의 상호작용을 동시에 모델링한다. 이를 바탕으로 다수의 STC 블록을 쌓아 구성한 STCFormer을 설계하고, 인간 신체의 구조를 반영할 수 있도록 새로운 구조 강화형 위치 임베딩(Structure-enhanced Positional Embedding, SPE)을 STCFormer에 통합한다. SPE는 두 가지 구성 요소로 이루어지며, 이웃하는 관절 주변의 공간-시간 컨볼루션을 통해 국소 구조를 추출하고, 각 관절이 어느 신체 부위에 속하는지를 인식하는 파트 인식 임베딩을 포함한다. 인간 3.6M(Human3.6M) 및 MPI-INF-3DHP 벤치마크에서 광범위한 실험을 수행한 결과, 최신 기술 대비 우수한 성능을 보였으며, 특히 STCFormer은 현재까지 공개된 최고 성능을 기록하여 도전적인 Human3.6M 데이터셋에서 40.5mm의 P1 오차를 달성하였다.