ViTPose: 인간 자세 추정을 위한 간단한 비전 트랜스포머 베이스라인

모델 설계 시 특별한 도메인 지식을 고려하지 않았음에도 불구하고, 단순한 비전 트랜스포머는 시각 인식 작업에서 뛰어난 성능을 보여왔다. 그러나 이러한 단순한 구조가 자세 추정 작업에서 가지는 잠재력을 탐구한 연구는 거의 이루어지지 않았다. 본 논문에서는 단순한 기준 모델인 ViTPose를 통해, 모델 구조의 단순성, 모델 크기의 확장성, 학습 패러다임의 유연성, 모델 간 지식 전이 가능성이라는 다양한 측면에서 단순한 비전 트랜스포머가 자세 추정 작업에 놀라울 정도로 우수한 능력을 지니고 있음을 보여준다. 구체적으로 ViTPose는 주어진 사람 인스턴스에 대해 특징을 추출하기 위해 단순하고 계층적이지 않은 비전 트랜스포머를 백본으로 사용하고, 자세 추정을 위한 경량 디코더를 활용한다. 트랜스포머의 확장 가능한 모델 용량과 높은 병렬 처리 능력을 활용해, 모델 파라미터 수를 1억에서 10억까지 확장할 수 있으며, 처리량과 성능 사이의 새로운 파레토 최적 경계를 설정한다. 또한 ViTPose는 어텐션 유형, 입력 해상도, 사전 학습 및 미세 조정 전략, 다중 자세 추정 작업 처리 등에서 매우 유연하다. 더불어 실험적으로 큰 크기의 ViTPose 모델이 간단한 지식 토큰을 통해 작은 모델로 쉽게 지식을 전이할 수 있음을 입증하였다. 실험 결과, 기본 ViTPose 모델은 도전적인 MS COCO 키포인트 검출 벤치마크에서 대표적인 기법들을 능가하며, 가장 큰 모델은 새로운 최고 성능을 기록하였다. 코드와 모델은 https://github.com/ViTAE-Transformer/ViTPose 에서 공개되어 있다.