3D 인간 자세 추정을 위한 정교화된 시계적 피라미드 압축-증폭 트랜스포머

비디오 시퀀스에서 사람의 3차원 자세를 정확히 추정하기 위해서는 높은 정확도와 잘 구조화된 아키텍처가 필요하다. 트랜스포머의 성공적인 적용을 바탕으로, 우리는 보다 정교한 시간적 피라미드 압축-증폭(Refined Temporal Pyramidal Compression-and-Amplification, RTPCA) 트랜스포머를 제안한다. RTPCA는 시간 차원을 효과적으로 활용하여, 내부 블록 내 시간 모델링을 시간적 피라미드 압축-증폭(Temporal Pyramidal Compression-and-Amplification, TPCA) 구조를 통해 확장하고, 블록 간 특징 상호작용을 크로스 레이어 리파인먼트(Cross-Layer Refinement, XLR) 모듈을 통해 정교하게 개선한다. 특히 TPCA 블록은 시간적 피라미드 패러다임을 도입하여, 키(key)와 값(value) 표현 능력을 강화하고, 운동 시퀀스로부터 자연스럽게 공간적 의미를 추출한다. 이러한 TPCA 블록들은 XLR 모듈과 연결되며, 쿼리(query), 키, 값 간의 지속적인 상호작용을 통해 � бог rich한 의미 표현을 촉진한다. 이 전략은 초기 단계의 정보를 현재의 흐름에 통합함으로써, 기존 트랜스포머 기반 방법에서 흔히 나타나는 세부 정보 부족 및 안정성 문제를 효과적으로 해결한다. 우리는 Human3.6M, HumanEva-I, MPI-INF-3DHP 벤치마크에서 RTPCA가 최신 기술 수준의 성능을 달성하면서도 계산량의 최소한의 증가로 효율성을 확보함을 실험을 통해 입증하였다. 소스 코드는 https://github.com/hbing-l/RTPCA 에서 공개되어 있다.