7일 전

다중 인스턴스 포즈 네트워크: 상향식 포즈 추정의 재고

Rawal Khirodkar, Visesh Chari, Amit Agrawal, Ambrish Tyagi
다중 인스턴스 포즈 네트워크: 상향식 포즈 추정의 재고
초록

상향식(톱다운) 인간 자세 추정 접근 방식의 핵심 가정은 입력 경계 상자(bounding box) 내에 단일 인스턴스(사람)만 존재한다고 전제하는 것이다. 이는 특히 겹쳐진(오클루전이 있는) 복잡한 장면에서 성능 저하를 초래하는 주요 원인이 된다. 본 연구에서는 이러한 근본적인 가정의 한계를 극복하기 위한 새로운 솔루션을 제안한다. 제안하는 다중 인스턴스 자세 네트워크(Multi-Instance Pose Network, MIPNet)는 주어진 경계 상자 내에서 다수의 2D 자세 인스턴스를 동시에 예측할 수 있도록 설계되었다. 이를 위해 각 인스턴스에 대해 채널별 특징 반응을 적응적으로 조절할 수 있는 다중 인스턴스 조절 블록(Multi-Instance Modulation Block, MIMB)을 도입하였으며, 파라미터 효율성이 뛰어나다. 제안된 방법의 효과를 COCO, CrowdPose, OCHuman 데이터셋에서 평가함으로써 입증하였다. 특히 CrowdPose 테스트 세트에서 70.0 AP, OCHuman 테스트 세트에서 42.5 AP를 달성하여 기존 기법 대비 각각 2.4 AP, 6.5 AP의 유의미한 성능 향상을 보였다. 참조 경계 상자(ground truth bounding box)를 사용한 추론 환경에서는 HRNet 대비 COCO에서 0.7 AP, CrowdPose에서 0.9 AP, OCHuman에서 9.1 AP의 성능 향상을 기록하였다. 흥미롭게도, 적은 수이지만 높은 신뢰도를 가진 경계 상자를 사용할 경우, HRNet은 OCHuman에서 5 AP의 성능 저하를 보였으나, MIPNet은 동일한 입력에 대해 상대적으로 안정적인 성능을 유지하며 단지 1 AP의 하락만을 보였다.

다중 인스턴스 포즈 네트워크: 상향식 포즈 추정의 재고 | 최신 연구 논문 | HyperAI초신경