17일 전

혼잡한 장면에서의 탐지: 하나의 제안, 다수의 예측

Xuangeng Chu, Anlin Zheng, Xiangyu Zhang, Jian Sun
혼잡한 장면에서의 탐지: 하나의 제안, 다수의 예측
초록

우리는 혼잡한 장면에서 높은 겹침을 보이는 객체를 탐지하는 것을 목표로, 간단하면서도 효과적인 기반 제안(Proposal-based) 객체 탐지기인 새로운 방법을 제안한다. 본 연구의 핵심은 기존의 제안 기반 프레임워크가 각 제안이 단일 객체를 예측하는 것과 달리, 각 제안이 상관관계를 갖는 다수의 객체 집합을 예측하도록 하는 것이다. EMD 손실(EMD Loss)과 세트 NMS(Set NMS)와 같은 새로운 기술들을 도입함으로써, 본 탐지기는 높은 겹침을 보이는 객체 탐지의 어려움을 효과적으로 해결할 수 있다. FPN-Res50 기반 모델에서 평가한 결과, 도전적인 CrowdHuman 데이터셋에서 4.9%의 AP 향상과 CityPersons 데이터셋에서 $\text{MR}^{-2}$ 기준 1.0%의 개선을 달성하였으며, 별도의 부가 기술 없이도 우수한 성능을 보였다. 또한, COCO와 같이 혼잡도가 낮은 데이터셋에서도 본 방법은 중간 정도의 성능 향상을 기록하며, 제안된 방법이 혼잡도에 대해 강건함을 보여준다. 코드와 사전 학습된 모델은 https://github.com/megvii-model/CrowdDetection 에 공개될 예정이다.

혼잡한 장면에서의 탐지: 하나의 제안, 다수의 예측 | 최신 연구 논문 | HyperAI초신경