11일 전

다중 스케일 인지 모듈을 갖춘 인코더-디코더 기반 컨볼루션 신경망을 활용한 군중 수세기

Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm Kijsirikul
다중 스케일 인지 모듈을 갖춘 인코더-디코더 기반 컨볼루션 신경망을 활용한 군중 수세기
초록

본 논문에서는 정확하고 효율적인 군중 수량 측정을 위해 이중 경로 다중 스케일 융합 네트워크(SFANet) 및 SegNet 기반의 두 가지 개선된 신경망을 제안한다. SFANet의 아이디어를 영감으로 삼아, 첫 번째 모델인 M-SFANet는 atrous 공간 피라미드 풀링(ASPP)과 컨텍스트 인지 모듈(CAN)을 도입하였다. M-SFANet의 인코더는 서로 다른 샘플링 속도를 가진 병렬 atrous 컨볼루션 계층을 포함하는 ASPP로 강화되어, 대상 객체의 다중 스케일 특징을 추출하고 더 큰 컨텍스트 정보를 통합할 수 있다. 입력 이미지 내에서 스케일 변동을 더욱 효과적으로 다루기 위해, 컨텍스트 정보의 스케일을 적응적으로 인코딩하는 CAN 모듈을 활용하였다. 이러한 조합은 밀집된 군중 장면과 희박한 군중 장면 모두에서 효과적인 수량 측정 모델을 제공한다. SFANet의 디코더 구조를 기반으로 한 M-SFANet의 디코더는 밀도 맵과 주의 맵 생성을 위한 이중 경로를 갖는다. 두 번째 모델인 M-SegNet은 SFANet의 이중선형 보간(bilinear upsampling)을 SegNet에서 사용되는 max unpooling으로 대체함으로써 구현되었다. 이 변경은 경쟁력 있는 수량 측정 성능을 유지하면서도 더 빠른 모델 속도를 제공한다. 고속 감시 응용을 위해 설계된 M-SegNet은 복잡성을 증가시키지 않기 위해 추가적인 다중 스케일 인지 모듈을 포함하지 않는다. 두 모델 모두 인코더-디코더 구조를 기반으로 하며, 엔드투엔드 학습이 가능하다. 제안된 방법의 유효성을 검증하기 위해, 다섯 개의 군중 수량 측정 데이터셋과 하나의 차량 수량 측정 데이터셋에서 광범위한 실험을 수행하였으며, 이러한 개선 사항이 최신 군중 수량 측정 기법을 개선할 수 있음을 입증하였다. 코드는 https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting 에서 공개되어 있다.

다중 스케일 인지 모듈을 갖춘 인코더-디코더 기반 컨볼루션 신경망을 활용한 군중 수세기 | 최신 연구 논문 | HyperAI초신경