초록
인간 인스턴스 세그멘테이션은 인간 중심의 장면 이해에서 핵심적인 문제이며, 외형과 형태 면에서 큰 클래스 내 변이와 복잡한 가림 패턴으로 인해 시각 시스템에게 특별한 도전 과제를 제시한다. 본 논문에서는 새로운 포즈 인지 인간 인스턴스 세그멘테이션 방법을 제안한다. 기존의 포즈 인지 방법은 먼저 바텀업 방식으로 포즈를 예측한 후, 예측된 포즈 위에 인스턴스 세그멘테이션을 추정하는 방식이지만, 본 연구에서는 상향식과 하향식 정보를 동시에 활용한다. 구체적으로, 객체 탐지 결과를 인간 후보 영역으로 활용하고, 각 후보에 대해 인간 포즈와 인스턴스 세그멘테이션을 공동으로 추정한다. 또한, 반복적인 방식으로 포즈 추정을 활용하여 인스턴스 세그멘테이션을 정교화하는 모듈형 순환 심층 네트워크를 개발하였다. 본 연구의 정교화 모듈은 포즈 정보를 두 가지 수준에서 활용한다: 먼저 거시적 형태 사전 지식으로서의 포즈 정보를, 그리고 지역적 부분 주의(attention)로써의 포즈 정보를 활용한다. 제안한 방법은 두 개의 공개 다인용 벤치마크인 OCHuman 데이터셋과 COCOPersons 데이터셋에서 평가되었으며, OCHuman 데이터셋에서는 기존 최고 성능 방법보다 3.0 mAP 향상되었고, COCOPersons 데이터셋에서는 6.4 mAP 향상되어 본 방법의 효과성을 입증하였다.