혼잡한 장면에서의 점진적 엔드투엔드 객체 탐지

본 논문에서는 군중 탐지를 위한 새로운 쿼리 기반 탐지 프레임워크를 제안한다. 기존의 쿼리 기반 탐지기는 두 가지 한계를 지닌다. 첫째, 혼잡한 장면에서 단일 객체에 대해 여러 예측을 생성하게 되며, 둘째, 디코딩 단계의 깊이가 증가함에 따라 성능이 포화 상태에 도달하게 된다. 이러한 문제를 해결하기 위해, 일대일 레이블 할당 규칙의 특성을 활용하여 점진적인 예측 방식을 제안한다. 구체적으로, 진정한 긍정 예측을 생성할 가능성이 높은 쿼리를 우선 선별한 후, 이전에 수용된 예측을 기반으로 나머지 노이즈가 많은 쿼리를 보정한다. 실험 결과, 제안한 방법은 쿼리 기반 탐지기의 성능을 혼잡한 장면에서 크게 향상시킴을 확인할 수 있었다. 본 방법을 적용한 Sparse RCNN은 도전적인 CrowdHuman \cite{shao2018crowdhuman} 데이터셋에서 92.0\% $\text{AP}$, 41.4\% $\text{MR}^{-2}$, 83.2\% $\text{JI}$의 성능을 달성하여, 혼잡한 상황 처리에 특화된 박스 기반 방법인 MIP \cite{chu2020detection}를 상회하였다. 또한, 혼잡도에 대해 강건한 본 방법은 CityPersons \cite{zhang2017citypersons} 및 COCO \cite{lin2014microsoft}와 같은 중간 및 약간 혼잡한 데이터셋에서도 일관된 성능 향상을 기록하였다. 코드는 https://github.com/megvii-model/Iter-E2EDET 에 공개될 예정이다.