
초록
최신의 군중 수량 측정 모델들은 일반적으로 인코더-디코더 아키텍처를 따릅니다. 먼저 이미지가 인코더를 통해 처리되어 특징을 추출하고, 시점 왜곡을 보정하기 위해 최상위 레벨의 특징 맵을 추가적인 구성 요소에 입력하여 다중 해상도 특징을 추출합니다. 이 다중 해상도 특징은 디코더의 입력이 되어 군중 밀도를 생성합니다. 그러나 이러한 기존 방법에서는 인코딩 과정의 초기 단계에서 추출된 특징들이 충분히 활용되지 않으며, 다중 해상도 모듈은 제한된 수준의 수용 영역(receptive field)만 포착할 수 있어 상당한 계산 비용을 수반합니다. 본 논문은 기존의 추가적인 특징 추출 구성 요소에 의존하지 않고, 인코딩 과정에서 생성된 대부분의 특징들을 적응형 방식으로 융합하는 새로운 군중 수량 측정 아키텍처(FusionCount)를 제안합니다. 이를 통해 더 광범위한 수용 영역 크기를 커버할 수 있으며, 동시에 계산 복잡도를 감소시킬 수 있습니다. 또한 디코딩 과정에서 주목성(saliency) 정보를 효과적으로 추출할 수 있는 새로운 채널 감소 블록을 도입하여 모델 성능을 추가로 향상시켰습니다. 두 가지 벤치마크 데이터베이스에서 실시한 실험 결과, 제안 모델은 계산 복잡도를 줄이면서도 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였습니다.