3달 전

고성능 인간 키포인트 탐지를 향해

Jing Zhang, Zhe Chen, Dacheng Tao
고성능 인간 키포인트 탐지를 향해
초록

단일 이미지에서 인간의 키포인트를 탐지하는 것은 가려짐, 흐림, 조명 변화 및 스케일 변동성 등의 문제로 인해 매우 도전적인 과제이다. 본 논문에서는 효율적인 네트워크 구조 설계, 효과적인 세 가지 학습 전략 제안, 그리고 유용한 네 가지 후처리 기법 활용을 통해 이 문제를 세 가지 측면에서 해결한다. 먼저, 우리는 맥락 정보가 인간 신체 구조 및 보이지 않는 키포인트를 추론하는 데 중요한 역할을 한다는 점을 발견하였다. 이를 바탕으로 공간적 및 채널 맥락 정보를 효율적으로 통합하고 점진적으로 개선하는 계단형 맥락 믹서(Cascaded Context Mixer, CCM)를 제안한다. 다음으로, CCM의 표현 능력을 극대화하기 위해, 풍부한 레이블이 없는 데이터를 활용하여 어려운 음성(hard-negative) 사람 탐지 마이닝 전략과 공동 학습 전략을 개발하였다. 이를 통해 CCM은 다양한 자세를 포함한 방대한 데이터로부터 구별 가능한 특징을 학습할 수 있다. 세 번째로, 키포인트 예측의 정확도를 향상시키기 위해 여러 하위 픽셀 정밀화 기법을 제안하고 후처리 단계에 적용한다. MS COCO 키포인트 탐지 벤치마크에서 실시한 광범위한 실험을 통해 제안된 방법이 대표적인 최신 기술(SOTA) 대비 우수한 성능을 보임을 입증하였다. 본 연구의 단일 모델은 2018년 COCO 키포인트 탐지 챌린지 우승 모델과 비슷한 성능을 달성하였으며, 최종 앙상블 모델은 이 벤치마크에서 새로운 SOTA 기록을 수립하였다.