17일 전

컨텍스츄얼 인스턴스 디커플링을 통한 강건한 다중 인물 포즈 추정

{Shiliang Zhang, Dongkai Wang}
컨텍스츄얼 인스턴스 디커플링을 통한 강건한 다중 인물 포즈 추정
초록

혼잡한 장면에서는 사람들을 구분하고 각자의 자세 키포인트를 정확히 위치시키는 것이 어려운 과제이다. 본 논문은 다인용 자세 추정을 위한 새로운 파이프라인인 '컨텍스추얼 인스턴스 디커플링(Contextual Instance Decoupling, CID)'을 제안한다. 기존의 사람 영역 박스(bounding box)에 의존하여 사람들을 공간적으로 구분하는 방식이 아니라, CID는 이미지 내 사람들을 여러 개의 인스턴스 인식 가능(feature maps)으로 분리한다. 각각의 특징 맵은 특정 사람의 키포인트를 추론하는 데 사용된다. 영역 박스 탐지 방식과 비교할 때 CID는 미분 가능하며, 탐지 오류에 더 강건하다. 사람들을 서로 다른 특징 맵으로 분리함으로써, 다른 사람으로 인한 방해 요소를 효과적으로 분리하고, 영역 박스 크기보다 더 큰 스케일의 맥락적 정보를 탐색할 수 있다. 실험 결과, CID는 정확도와 효율성 측면에서 기존의 다인용 자세 추정 파이프라인들을 넘어서는 성능을 보였다. 예를 들어, 혼잡한 장면을 대상으로 한 CrowdPose 벤치마크에서 71.3%의 AP를 달성하여, 최근의 단계별 접근인 DEKR보다 5.6%, 하향식 접근인 CenterAttention보다 3.7%, 상향식 접근인 JC-SPPE보다 5.3% 높은 성능을 기록했다. 이 우수성은 일반적으로 사용되는 COCO 벤치마크에서도 지속적으로 확인되었다.