Lite Pose: 효율적인 2D 인간 자세 추정 아키텍처 설계

포즈 추정은 인간 중심의 시각 응용 프로그램에서 중요한 역할을 합니다. 그러나 최신 HRNet 기반 포즈 추정 모델은 높은 계산 비용(프레임당 150 GMACs 이상) 때문에 리소스가 제한된 엣지 장치에 배포하기 어렵습니다. 본 논문에서는 엣지에서 실시간 다중 인물 포즈 추정을 위한 효율적인 아키텍처 설계를 연구합니다. 점진적 축소 실험을 통해 저 계산 영역에서 HRNet의 고해상도 분기들이 불필요하다는 것을 밝혔습니다. 이를 제거하면 효율성과 성능이 모두 향상됩니다. 이 발견에 착안하여, 우리는 단일 분기 아키텍처인 LitePose를 설계하고, LitePose의 용량을 향상시키기 위한 두 가지 간단한 접근 방식인 Fusion Deconv Head와 Large Kernel Convs를 소개합니다. Fusion Deconv Head는 고해상도 분기들의 중복성을 제거하여 낮은 오버헤드로 스케일 인식 특성 융합을 가능하게 합니다. Large Kernel Convs는 계산 비용을 유지하면서 모델의 용량과 수용 범위를 크게 향상시킵니다. CrowdPose 데이터셋에서 7x7 커널은 3x3 커널보다 25%의 계산 증가로 +14.0 mAP 더 우수한 성능을 보였습니다. 모바일 플랫폼에서는 LitePose가 이전 최고 수준의 효율적인 포즈 추정 모델들과 비교하여 성능을 희생하지 않으면서 지연 시간을 최대 5.0배 줄였으며, 이는 엣지에서 실시간 다중 인물 포즈 추정의 경계를 확장하였습니다. 우리의 코드와 사전 학습된 모델은 https://github.com/mit-han-lab/litepose 에서 제공됩니다.