17일 전

다중 장면 인구 수 세기: 심층 합성 신경망을 이용한 방법

{Xiaokang Yang, Cong Zhang, Hongsheng Li, Xiaogang Wang}
다중 장면 인구 수 세기: 심층 합성 신경망을 이용한 방법
초록

크로스-シーン 군중 수량 측정은 훈련 세트에서 관측되지 않은 새로운 타겟 감시 장면에서 사람 수를 셀 때 인력이 필요한 데이터 주석을 필요로 하지 않는 도전적인 과제이다. 기존의 대부분의 군중 수량 측정 방법은 새로운 장면에 적용될 경우 성능이 크게 저하된다. 이 문제를 해결하기 위해, 군중 밀도와 군중 수량이라는 두 가지 관련 학습 목표를 번갈아가며 훈련하는 깊은 합성곱 신경망(CNN)을 제안한다. 제안된 스위처블 학습 방식은 두 목표 모두에 대해 더 나은 국소 최적해를 도출할 수 있다. 새로운 타겟 군중 장면을 처리하기 위해, 훈련된 CNN 모델을 해당 장면에 맞게 미세 조정하기 위한 데이터 기반 방법을 제시한다. 군중 수량 측정의 정확도를 보다 정밀하게 평가하기 위해, 약 20만 개의 머리 부분 주석을 포함한 총 108개의 군중 장면으로 구성된 새로운 데이터셋을 소개한다. 제안된 데이터셋과 기존의 두 개의 데이터셋에서 수행한 광범위한 실험을 통해 본 방법의 효과성과 신뢰성을 입증하였다.