
초록
인코더-디코더 프레임워크는 오프라인 의미 이미지 분할에서 최첨단 기술로 사용되고 있습니다. 자율 시스템의 발전에 따라 실시간 계산이 점점 더 요구되고 있습니다. 본 논문에서는 고해상도 이미지 데이터(1024x2048px)에서 효율적인 계산을 위해 저 메모리 임베디드 장치에 적합한 '실시간 이상' 의미 분할 모델인 빠른 세그멘테이션 컨볼루셔널 신경망(Fast-SCNN)을 소개합니다. 기존의 빠른 분할을 위한 두 가지 분기 방법을 바탕으로, 우리는 여러 해상도 분기에 대해 동시에 저수준 특징을 계산하는 '다운샘플링 학습(Learning to Downsample)' 모듈을 제안합니다. 우리의 네트워크는 고해상도에서의 공간적 세부 정보와 저해상도에서 추출된 깊은 특징을 결합하여, Cityscapes 데이터셋에서 123.5 프레임당 초에 68.0%의 평균 교차 연합 정확도를 달성합니다. 또한 대규모 사전 학습이 불필요하다는 것을 보여줍니다. 우리는 ImageNet 사전 학습과 Cityscapes의 대략적으로 라벨링된 데이터를 사용한 실험을 통해 우리의 지표를 철저히 검증하였습니다. 마지막으로, 네트워크 수정 없이 하위 샘플링된 입력에서 더욱 빠른 계산과 경쟁력 있는 결과를 보여주었습니다.