
초록
최신의 혼잡한 장면에서 사람을 세는 방법은 군중 밀도를 추정하기 위해 딥 네트워크를 활용합니다. 이러한 방법들은 일반적으로 전체 이미지나 큰 이미지 패치에 대해 동일한 필터를 사용하고, 이후 관점 왜곡을 보상하기 위해 로컬 스케일을 추정합니다. 이는 주로 사전 정의된 이미지 패치에 대해 제한된 선택 범위 내에서 최적의 커널 크기를 선택하는 보조 분류기를 훈련시키는 방식으로 이루어집니다. 따라서 이러한 방법들은 엔드-투-엔드로 훈련할 수 없으며, 활용할 수 있는 문맥의 범위가 제한됩니다.본 논문에서는 여러 수용 영역 크기를 사용하여 얻은 특징들을 결합하고, 각 이미지 위치에서 그러한 특징들의 중요성을 학습하는 엔드-투-엔드로 훈련 가능한 딥 아키텍처를 소개합니다. 즉, 우리의 접근 방식은 정확한 군중 밀도 예측을 위해 필요한 문맥 정보의 스케일을 적응적으로 인코딩합니다. 이로 인해 특히 관점 효과가 강할 때 기존 최신 군중 세기 방법론보다 우수한 성능을 발휘하는 알고리즘이 생성됩니다.