2달 전

3D 인간 자세 추정을 위한 공간 및 시간 트랜스포머

Zheng, Ce ; Zhu, Sijie ; Mendieta, Matias ; Yang, Taojiannan ; Chen, Chen ; Ding, Zhengming
3D 인간 자세 추정을 위한 공간 및 시간 트랜스포머
초록

트랜스포머 아키텍처는 자연어 처리 분야에서 선호되는 모델이 되었으며, 이제 이미지 분류, 객체 감지, 의미적 세분화 등의 컴퓨터 비전 작업에도 도입되고 있습니다. 그러나 인간 자세 추정 분야에서는 여전히 컨볼루션 아키텍처가 주도적인 위치를 차지하고 있습니다. 본 연구에서는 컨볼루션 아키텍처를 사용하지 않고 비디오에서 3D 인간 자세를 추정하는 순수한 트랜스포머 기반 접근 방식인 PoseFormer를 제시합니다. 최근 비전 트랜스포머의 발전에 영감을 받아, 각 프레임 내의 인간 관절 관계와 프레임 간의 시간적 상관관계를 포괄적으로 모델링하기 위한 공간-시간 트랜스포머 구조를 설계하였습니다. 이를 통해 중앙 프레임의 정확한 3D 인간 자세를 출력합니다. 우리는 Human3.6M과 MPI-INF-3DHP라는 두 개의 인기 있고 표준적인 벤치마크 데이터셋에서 우리의 방법을 정량적 및 정성적으로 평가하였습니다. 광범위한 실험 결과, PoseFormer는 두 데이터셋 모두에서 최고 수준의 성능을 달성함을 보여주었습니다. 코드는 \url{https://github.com/zczcwh/PoseFormer}에서 확인할 수 있습니다.