ViTPose++: Vision Transformer for Generic Body Pose Estimation ViTPose++: 일반적인 신체 포즈 추정을 위한 비전 트랜스포머

본 논문에서는 다양한 측면에서 평범한 비전 트랜스포머의 놀라울 정도로 우수한 성질을 보여주는데, 이는 모델 구조의 단순성, 모델 크기의 확장성, 학습 패러다임의 유연성, 그리고 모델 간 지식 전이 가능성 등을 통해 단순한 기준모델인 ViTPose를 사용하여 입증됩니다. 특히, ViTPose는 평범하고 계층적이지 않은 비전 트랜스포머를 인코더로 사용하여 특성을 인코딩하고, 경량 디코더를 사용하여 상위-하위(top-down) 방식이나 하위-상위(bottom-up) 방식으로 신체 키포인트를 디코딩합니다. 비전 트랜스포머의 확장 가능한 모델 용량과 높은 병렬성을 활용하여 약 20M에서 1B 파라미터까지 확장할 수 있으며, 처리량과 성능 사이에 새로운 파레토 최적선(Pareto front)을 설정합니다.또한, ViTPose는 주목 유형(attention type), 입력 해상도(input resolution), 사전 학습(pre-training) 및 미세 조정(fine-tuning) 전략에 대해 매우 유연합니다. 이러한 유연성을 바탕으로 ViTPose+라는 새로운 모델이 제안되었습니다. 이 모델은 지식 분해(knowledge factorization)를 통해 다양한 형태의 신체 포즈 추정 작업에서 이질적인 신체 키포인트 카테고리를 처리하는데 사용되며, 트랜스포머 내에서 작업 독립적(task-agnostic)이고 작업 특정적(task-specific)인 피드포워드 네트워크(feed-forward networks)를 채택합니다. 우리는 또한 실험적으로 큰 ViTPose 모델의 지식이 간단한 지식 토큰(knowledge token)을 통해 작은 모델로 쉽게 전달될 수 있음을 실증적으로 보여주었습니다.실험 결과, 우리의 ViTPose 모델은 MS COCO 인간 키포인트 검출 벤치마크에서 상위-하위(top-down)와 하위-상위(bottom-up) 설정 모두에서 대표적인 방법들을 능가하는 것으로 나타났습니다. 더욱이, 우리의 ViTPose+ 모델은 MS COCO, AI Challenger, OCHuman, MPII 인간 키포인트 검출, COCO-Wholebody 전체 신체 키포인트 검출, 그리고 동물 키포인트 검출을 위한 AP-10K와 APT-36K 등 일련의 신체 포즈 추정 작업에서 동시적으로 최고 수준의 성능을 달성하였으며, 추론 속도를 저하시키지 않았습니다.