18일 전

시공간 크로스 크로스 어텐션을 활용한 3D 인간 자세 추정

{Ting Yao, Richang Hong, Yanbin Hao, Zhaofan Qiu, Zhenhua Tang}
시공간 크로스 크로스 어텐션을 활용한 3D 인간 자세 추정
초록

최근 트랜스포머 기반의 접근법은 3차원 인간 자세 추정에서 뛰어난 성과를 보여주고 있다. 그러나 관절 간 유사성 행렬을 계산하기 위해 계산 비용은 관절 수의 증가에 따라 제곱적으로 증가하는 문제를 안고 있다. 이러한 단점은 특히 전체 영상 시퀀스에 걸쳐 공간-시간적 상관관계를 고려해야 하는 영상 기반 자세 추정에서 더욱 심각해진다. 본 논문에서는 이러한 문제를 공간과 시간에 따라 상관관계 학습을 분해함으로써 해결하고, 새로운 공간-시간 크로스 크로스 어텐션(Spatio-Temporal Criss-cross attention, STC) 블록을 제안한다. 기술적으로 STC는 입력 특징을 채널 차원에 따라 균등하게 두 파트로 분할한 후, 각 파트에 대해 별도로 공간적 어텐션과 시간적 어텐션을 수행한다. 이후 어텐션 레이어의 출력을 연결함으로써, 동일한 프레임 내의 관절 간 상호작용과 동일한 궤적을 따르는 관절 간의 상호작용을 동시에 모델링한다. 이를 바탕으로 다수의 STC 블록을 쌓아 구성한 STCFormer을 설계하고, 인간 신체의 구조를 반영할 수 있도록 새로운 구조 강화형 위치 임베딩(Structure-enhanced Positional Embedding, SPE)을 STCFormer에 통합한다. SPE는 두 가지 구성 요소로 이루어지며, 이웃하는 관절 주변의 공간-시간 컨볼루션을 통해 국소 구조를 추출하고, 각 관절이 어느 신체 부위에 속하는지를 인식하는 파트 인식 임베딩을 포함한다. 인간 3.6M(Human3.6M) 및 MPI-INF-3DHP 벤치마크에서 광범위한 실험을 수행한 결과, 최신 기술 대비 우수한 성능을 보였으며, 특히 STCFormer은 현재까지 공개된 최고 성능을 기록하여 도전적인 Human3.6M 데이터셋에서 40.5mm의 P1 오차를 달성하였다.

시공간 크로스 크로스 어텐션을 활용한 3D 인간 자세 추정 | 최신 연구 논문 | HyperAI초신경