
초록
시각적 장면 이해를 위한 픽셀 단위 의미 분할은 정확성뿐만 아니라 실시간 응용 프로그램에서 사용될 수 있도록 효율성도 필요합니다. 기존 알고리즘은 정확성이 뛰어나지만 신경망의 매개변수를 효율적으로 활용하는 데 초점을 두지 않습니다. 그 결과, 매개변수와 연산 횟수가 많아서 처리 속도가 느립니다. 본 논문에서는 매개변수 수의 유의미한 증가 없이 학습할 수 있는 새로운 딥 뉴럴 네트워크 구조를 제안합니다. 제안된 네트워크는 3x640x360 해상도의 이미지를 처리하기 위해 1,150만 개의 매개변수와 21.2 GFLOPs(연산당 부동소수점 연산 횟수)만을 사용하며, CamVid 데이터셋에서 최고 수준의 성능을 보여주며 Cityscapes 데이터셋에서도 유사한 결과를 얻습니다. 또한 NVIDIA GPU 및 임베디드 시스템 장치에서 다양한 이미지 해상도에 대한 기존 최신 아키텍처와 비교하여 제안된 네트워크의 처리 시간을 분석하였습니다.