17일 전
TFPose: Transformer를 활용한 직접적인 인간 자세 추정
Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang

초록
우리는 회귀 기반 방식으로 포즈 추정 작업을 해결하는 프레임워크를 제안한다. 기존의 회귀 기반 방법들이 종종 최첨단 기법에 비해 성능이 뒤처지는 것과 달리, 본 연구에서는 포즈 추정 문제를 트랜스포머에 의해 효과적으로 해결할 수 있는 시퀀스 예측 문제로 재정의한다. 제안하는 프레임워크는 간단하고 직관적이며, 히트맵 기반 포즈 추정의 단점을 회피한다. 더불어 트랜스포머 내부의 어텐션 메커니즘을 활용함으로써, 목표 키포인트와 가장 관련성이 높은 특징에 적응적으로 주목할 수 있으며, 이는 기존 회귀 기반 방법에서 발생하던 특징 불일치 문제를 크게 완화하고 성능을 상당히 향상시킨다. 특히, 본 프레임워크는 키포인트 간의 구조적 관계를 내재적으로 활용할 수 있다. MS-COCO 및 MPII 데이터셋에서의 실험 결과, 제안한 방법이 회귀 기반 포즈 추정 기법의 최신 기준을 크게 향상시킬 뿐만 아니라, 최고 수준의 히트맵 기반 포즈 추정 방법과 경쟁 가능한 성능을 달성함을 입증하였다.