11일 전
포저: 트랜스포머를 활용한 직접적 인간 자세 회귀
Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, Anton van den Hengel

초록
단일 이미지에서 2D 인간 자세 추정을 위한 직접적인 회귀 기반 접근법을 제안한다. 본 문제를 시퀀스 예측 태스크로 공식화하고, Transformer 네트워크를 사용하여 이를 해결한다. 이 네트워크는 이미지에서 키포인트 좌표로 직접 회귀 맵핑을 학습하며, 히트맵과 같은 중간 표현에 의존하지 않는다. 이러한 접근법은 히트맵 기반 방법과 관련된 복잡성의 대부분을 피할 수 있다. 기존의 회귀 기반 방법에서 발생하는 특징 불일치 문제를 해결하기 위해, 목표 키포인트와 가장 관련성이 높은 특징에 적응적으로 주목하는 주의 메커니즘을 제안한다. 이는 정확도를 크게 향상시킨다. 특히, 본 프레임워크는 엔드투엔드 미분 가능하며, 키포인트 간의 의존성을 자연스럽게 학습한다. MS-COCO와 MPII 두 가지 주요 자세 추정 데이터셋에서의 실험 결과, 본 방법은 회귀 기반 자세 추정 분야에서 최신 기술을 크게 초월함을 입증한다. 더욱 주목할 점은, 본 연구가 최고의 히트맵 기반 자세 추정 방법과 비교해도 유리한 성능을 보이는 최초의 회귀 기반 접근법이라는 것이다.