공간 인식 학습을 통한 인구 수 세기 개선

군중 수량 측정의 목적은 보행자 머리의 중심 위치에 대한 레이블을 활용하여 이미지 내 인원 수를 추정하는 것이다. 깊은 합성곱 신경망(Convolutional Neural Networks)의 보편적 적용과 함께 이 분야에서는 희망적인 성과가 이루어졌다. 기존의 방법들은 모델을 최적화하기 위해 일반적으로 유클리드 거리(L₂ 손실)를 사용하고 있으나, 이는 두 가지 주요한 한계를 가지고 있다. 첫째, 손실 함수가 밀도 맵 내 고주파 변동을 유지하는 데 어려움을 겪기 때문에 공간 인식(즉, 머리 위치)을 효과적으로 학습하기 어렵다는 점이다. 둘째, 군중 수량 측정에서 다양한 노이즈—예를 들어 평균이 0인 노이즈, 머리 크기 변화, 가림 현상 등—에 매우 민감하다는 점이다. 기존에 제안된 최대 부분 배열 초과(Maximum Excess over SubArrays, MESA) 손실은 이러한 문제를 해결하기 위해 예측된 밀도 맵과 진짜 값 간의 차이가 가장 큰 직사각형 부분 영역을 찾아내는 방식을 사용하였으나, 이 손실은 경사 하강법(gradient descent)을 통해 최적화할 수 없어 깊은 학습 프레임워크에 통합하기 어렵다는 한계가 있었다. 본 논문에서는 공간적 맥락을 군중 수량 측정에 효과적으로 통합하기 위해 새로운 아키텍처인 SPatial Awareness Network(SPANet)을 제안한다. 이를 위해 지표값과의 차이가 큰 픽셀 수준의 부분 영역을 찾는 방식으로, 새로운 손실 함수인 최대 픽셀 초과(Maximum Excess over Pixels, MEP) 손실을 제안한다. 이를 실현하기 위해 다중 브랜치 아키텍처를 기반으로 한 약한 지도 학습 방식을 설계하였다. 제안된 프레임워크는 기존의 깊은 군중 수량 측정 방법들과 쉽게 통합 가능하며, 엔드 투 엔드(end-to-end) 학습이 가능하다. 네 가지 도전적인 벤치마크에서 실시한 광범위한 실험 결과, 제안한 방법이 기준 모델의 성능을 크게 향상시킴을 확인하였다. 특히 주목할 점은, 제안한 접근법이 모든 벤치마크 데이터셋에서 최신 기술(SOTA) 수준의 방법들을 초월하여 우수한 성능을 보였다.