
초록
최근 몇 년 동안 딥 컨볼루션 신경망(DCNN)을 사용한 의미 분할에 있어 큰 발전이 이루어졌습니다. 그러나 많은 수의 컨볼루션 레이어와 피처 채널은 계산량이 많은 작업으로 이어져, 자원이 제한된 환경에서는 불리하게 작용합니다. 본 논문에서는 이러한 문제를 해결하기 위해 효율적인 대칭 네트워크인 ESNet을 설계하였습니다. 전체 네트워크는 거의 대칭적인 구조로, 주로 인수 분해 컨볼루션 유닛(FCU)과 그 병렬 버전(PFCU)으로 구성됩니다. 한편, FCU는 잔차 레이어에서 널리 사용되는 1D 인수 분해 컨볼루션을 채택하고 있습니다. 다른 한편으로, 병렬 버전은 잔차 모듈의 설계에서 변환-분할-변환-병합 전략을 사용하며, 여기서 분할 브랜치는 수용 영역을 확대하기 위해 다양한 비율의 다일레이션 컨볼루션(dilated convolutions)을 사용합니다. 우리의 모델은 약 1.6M 개의 매개변수를 가지고 있으며, 단일 GTX 1080Ti GPU에서 62 FPS 이상의 성능을 보여줍니다. 실험 결과, CityScapes 데이터셋에서 실시간 의미 분할에 있어서 속도와 정확도의 균형 면에서 최신 기술 수준의 결과를 달성하였음을 입증하였습니다.