PS-RCNN: 주체 객체 억제를 통한 군중 내 보조 인간 개체 탐지

매우 혼잡한 장면에서 인간 몸체를 탐지하는 것은 도전적인 문제이다. 이러한 문제 발생의 주요 원인은 두 가지이다. 첫째, 겹쳐져서 거의 가려진 개체의 시각적 특징이 약하기 때문에 정확한 탐지를 위한 충분한 정보를 제공하기 어렵다. 둘째, 겹쳐진 개체는 비최대 억제(NMS, Non-Maximum Suppression)에 의해 쉽게 억제되는 경향이 있다. 이러한 두 가지 문제를 해결하기 위해, 우리는 이중 단계 탐지기의 변형인 PS-RCNN을 제안한다. PS-RCNN은 먼저 R-CNN 모듈(P-RCNN로 지칭)을 이용해 약간 또는 전혀 가려지지 않은 객체를 탐지한 후, 인간의 형태를 반영한 마스크를 사용하여 탐지된 개체를 억제함으로써, 심하게 가려진 개체의 특징이 두드러지게 만든다. 이후 PS-RCNN은 심하게 가려진 인간 탐지에 특화된 또 다른 R-CNN 모듈(S-RCNN로 지칭)을 활용하여 P-RCNN이 놓친 나머지 객체들을 탐지한다. 최종 결과는 이 두 R-CNN의 출력을 통합한 것이다. 더불어, 심하게 가려진 인간의 가시 부분에서 세부적인 특징을 가능한 한 유지하기 위해 고해상도 RoI 어라이어(HRRA, High Resolution RoI Align) 모듈을 도입하였다. 제안하는 PS-RCNN은 기준 모델 대비 CrowdHuman 데이터셋에서 재현율(recall)과 AP(average precision)를 각각 4.49%, 2.92% 향상시켰으며, WiderPerson 데이터셋에서도 유사한 성능 향상 효과를 달성하였다.