
전신 포즈 추정은 신체, 손, 얼굴, 발의 키포인트를 동시에 예측해야 하는 도전적인 작업입니다. 전신 포즈 추정은 얼굴, 몸통, 손, 발을 포함한 인간 신체의 세부적인 포즈 정보를 예측함으로써 인간 중심의 인지 및 생성 연구와 다양한 응용 분야에서 중요한 역할을 합니다. 본 연구에서는 2D/3D 전신 포즈 추정을 위한 고성능 모델 시리즈인 RTMW(RT-Real-Time Multi-person Whole-body pose estimation models)를 제안합니다. RTMPose 모델 아키텍처에 FPN(Feature Pyramid Network)과 HEM(Hierarchical Encoding Module)을 통합하여 다양한 체형 규모의 신체 부위에서 포즈 정보를 더 효과적으로 포착할 수 있도록 하였습니다. 모델은 수동으로 정렬된 annotation을 갖춘 풍부한 오픈소스 인간 키포인트 데이터셋을 기반으로 학습되었으며, 이는 이중 단계의 다이스틸리케이션 전략을 통해 추가적으로 성능이 향상되었습니다. RTMW는 여러 전신 포즈 추정 벤치마크에서 뛰어난 성능을 보이며, 높은 추론 효율성과 배포 용이성을 유지하고 있습니다. 우리는 m/l/x 세 가지 크기의 모델을 공개하였으며, RTMW-l은 COCO-Wholebody 벤치마크에서 70.2 mAP를 기록하여 이 벤치마크에서 70 mAP를 초과한 최초의 오픈소스 모델이 되었습니다. 동시에 RTMW의 3D 전신 포즈 추정 성능을 탐색하였으며, 좌표 분류 방식을 기반으로 한 이미지 기반 단안 3D 전신 포즈 추정 실험을 수행하였습니다. 본 연구가 학계의 연구 활동과 산업 응용에 모두 기여하기를 기대합니다. 코드와 모델은 다음 주소에서 공개되어 있습니다: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose