RTMO: 고성능 단계형 실시간 다중 인물 자세 추정을 위한 연구

실시간 다중 인물 자세 추정은 속도와 정밀도의 균형을 맞추는 데 상당한 도전이 따릅니다. 두 단계의 상위-하위(top-down) 방법은 이미지 내 인물 수가 증가함에 따라 느려지는 반면, 기존의 한 단계(one-stage) 방법들은 종종 고정확도와 실시간 성능을 동시에 제공하지 못합니다. 본 논문에서는 RTMO라는 한 단계 자세 추정 프레임워크를 소개합니다. 이 프레임워크는 YOLO 아키텍처 내에서 키포인트를 쌍 1차원 히트맵(dual 1-D heatmaps)으로 표현하여 좌표 분류를 원활하게 통합하며, 상위-하위 방법과 유사한 정밀도를 유지하면서 높은 속도를 보장합니다. 우리는 좌표 분류와 밀집 예측 모델(dense prediction models) 간의 불일치를 해결하기 위해 특별히 설계된 동적 좌표 분류기(dynamic coordinate classifier)와 맞춤형 손실 함수(tailored loss function)를 제안합니다. RTMO는 최신 한 단계 자세 추정기들보다 우수한 성능을 보여주며, 같은 백본(backbone)을 사용할 때 COCO 데이터셋에서 AP(Average Precision)가 1.1% 더 높으면서 약 9배 더 빠르게 작동합니다. 우리의 가장 큰 모델인 RTMO-l은 COCO val2017에서 74.8% AP를 달성하였으며, 단일 V100 GPU에서 141 FPS(Frames Per Second)로 실행되어 그 효율성과 정확성을 입증하였습니다. 코드와 모델은 https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo 에서 확인할 수 있습니다.