
CNN 기반 모델은 인간의 자세 추정 분야에서 놀라운 성과를 거두었지만, 이러한 모델이 키포인트를 정확히 위치시키기 위해 어떤 공간적 종속성(spacial dependencies)을 포착하는지는 명확하지 않다. 본 연구에서는 인간 자세 추정을 위해 Transformer를 도입한 모델인 \textbf{TransPose}를 제안한다. Transformer에 내장된 어텐션 레이어는 장거리 관계를 효율적으로 포착할 수 있게 하며, 예측된 키포인트가 어떤 종속성에 의존하는지 또한 드러낼 수 있다. 키포인트 히트맵을 예측하기 위해 마지막 어텐션 레이어는 이미지의 정보를 종합하는 집계기(aggregator) 역할을 하며, 키포인트의 최대값 위치를 형성한다. 이러한 Transformer 기반의 히트맵 기반 위치 추정 방식은 Activation Maximization~\cite{erhan2009visualizing}의 원칙에 부합한다. 또한, 드러나는 종속성은 이미지에 특화된 세밀한 수준의 정보를 제공하며, 예를 들어 가림(occlusion)과 같은 특수한 경우에서 모델이 어떻게 대응하는지를 입증하는 근거가 될 수 있다. 실험 결과, TransPose는 COCO 검증 세트와 테스트-개발 세트에서 각각 75.8 AP와 75.0 AP를 달성하였으며, 주류 CNN 아키텍처보다 더 가볍고 빠른 성능을 보였다. 또한, MPII 벤치마크에서의 전이 학습에서도 매우 우수한 성능을 보였으며, 소규모 학습 비용으로도 테스트 세트에서 뛰어난 성능을 달성할 수 있었다. 코드와 사전 훈련된 모델은 공개되어 있으며\footnote{\url{https://github.com/yangsenius/TransPose}} 누구나 접근 가능하다.