11일 전
단일 이미지 기반 군중 수세기: 다중 컬럼 컨볼루션 신경망을 활용한 방법
{Siqin Chen, Shenghua Gao, Yi Ma, Yingying Zhang, Desen Zhou}

초록
본 논문은 임의의 혼잡도와 임의의 시점에서 이미지 하나로부터 정확한 인구 밀도를 추정할 수 있는 방법을 개발하는 것을 목표로 한다. 이를 위해 우리는 이미지를 인구 밀도 지도로 매핑하는 간단하면서도 효과적인 다중 컬럼 형식의 합성곱 신경망(MCNN) 아키텍처를 제안한다. 제안된 MCNN는 입력 이미지의 크기나 해상도가 임의일 수 있도록 설계되어 있다. 각 컬럼에 존재하는 CNN은 서로 다른 수용 영역(Receptive Field)을 가진 필터를 활용함으로써, 시점 효과나 이미지 해상도 변화로 인한 사람 또는 머리 크기의 변동에 적응 가능한 특징을 학습할 수 있다. 또한, 입력 이미지의 시점 지도(Perspective Map)를 사전에 알 필요 없이 기하학적으로 적응 가능한 커널을 이용하여 정확한 진정 밀도 지도를 계산할 수 있다. 기존의 인구 밀도 추정 데이터셋은 본 연구에서 고려한 다양한 도전적인 상황을 충분히 포함하지 못하고 있어, 본 연구에서는 약 33만 개의 머리를 라벨링한 총 1,198개의 이미지를 포함하는 대규모 신규 데이터셋을 수집하고 라벨링하였다. 이러한 도전적인 신규 데이터셋과 기존의 모든 데이터셋을 대상으로 광범위한 실험을 수행하여 제안된 모델 및 방법의 효과를 검증하였다. 특히, 제안된 간단한 MCNN 모델을 사용함으로써, 기존의 모든 방법보다 우수한 성능을 달성하였다. 또한 실험 결과, 본 모델은 한 데이터셋에서 학습된 후 새로운 데이터셋으로 쉽게 전이 가능함을 확인하였다.