
초록
다수 인물의 자세 추정을 위한 잘 알려진 하향식 접근 방식을 재검토하고, 개선된 접근 방식을 제안한다. 제안하는 방법은 (1) 키포인트 간의 연결 정보를 인코딩하기 위해 '바디 파츠(body parts)'라 명명한 직관적이면서도 더 타당한 표현 방식을 도입하고, (2) 주의 메커니즘을 통합한 개선된 스택드 아워글라스 네트워크를 활용하며, (3) 어려운 키포인트 및 키포인트 연결(바디 파츠) 탐색에 특화된 새로운 포컬 L2 손실 함수를 적용하고, (4) 검출된 키포인트를 개별 자세로 그룹화하기 위한 강건한 그리디 키포인트 할당 알고리즘을 사용함으로써 기준 모델을 크게 상회한다. 본 방법은 구현이 간단하고 직관적이며, 평균 정밀도에서 기준 모델 대비 약 15% 향상되었으며, MS-COCO test-dev 데이터셋에서 최신 기술 수준과 경쟁 가능한 성능을 보였다. 코드 및 사전 학습된 모델은 공개적으로 온라인에서 제공된다.