
자율적 대규모 인구 행동 분석은 다양한 도로 참가자에 대응하기 위한 효과적인 흐름 제어 및 동적 경로 계획을 가능하게 하기 위해 지능형 교통 시스템에서 중요한 과제이다. 대규모 인구 수 세기(crowd counting)는 자율적 대규모 인구 행동 분석의 핵심 요소 중 하나이다. 최근 몇 년간, 심층 컨볼루션 신경망(CNN)을 활용한 대규모 인구 수 세기는 긍정적인 성과를 거두었다. 연구자들은 다양한 CNN 아키텍처 설계에 많은 노력을 기울였으며, 대부분의 경우 사전 훈련된 VGG16 모델을 기반으로 하고 있다. 그러나 VGG16의 표현 능력이 부족한 점을 고려하면, 일반적으로 그 백본 네트워크 뒤에 성능 향상을 위해 특별히 설계된 복잡한 추가 네트워크가 연결된다. 이미지 분류 과제에서는 Inception 모델이 VGG 모델을 능가했음에도 불구하고, 기존의 Inception 모듈을 기반으로 한 대규모 인구 수 세기 네트워크는 여전히 기본적인 Inception 모듈을 단순히 소수의 층에만 사용하고 있다. 이러한 격차를 메우기 위해 본 논문에서는 먼저 일반적으로 사용되는 대규모 인구 수 세기 데이터셋에서 Inception-v3 모델의 벤치마크를 수행하여, 기존 대부분의 대규모 인구 수 세기 모델과 비교해도 뛰어난 성능을 달성함을 확인하였다. 이후 본 논문은 Inception-v3를 백본으로 하며, 대규모 인구 수 세기용으로 새롭게 제안된 교육 과정 기반 손실 함수(curriculum loss)를 갖춘 세그멘테이션 유도 주의 네트워크(Segmentation Guided Attention Network, SGANet)를 제안함으로써 이 혁신적인 연구의 경계를 더욱 확장한다. 제안된 SGANet의 성능을 기존 기법들과 철저히 비교한 실험 결과, 상해기술대A(ShanghaiTechA), 상해기술대B(ShanghaiTechB), UCF_QNRF 데이터셋에서 각각 MAE(평균 절대 오차) 57.6, 6.3, 87.6을 달성하며 최신 기술 수준의 성능을 보였다.