
깊은 합성곱 신경망을 사용한 의미 분할은 GPU에 중점을 둔 작업에서 더욱 복잡한 도전과제를 제시합니다. 수백만 개의 매개변수를 계산해야 하기 때문에 메모리 소비가 매우 크며, 더 세부적인 특징을 추출하고 지도 학습을 수행하는 것이 복잡성을 증가시키는 경향이 있습니다. Fully Convolutional Neural Network(FCN)의 등장으로, 더 작은 스트라이드를 사용하고 디컨볼루션 레이어를 통해 업샘플링을 수행함으로써 이미지 분할 작업에 있어 주요 모델로 자리 잡았습니다. 본 논문에서는 매개변수 계산량이 기존 모델의 3분의 1에 불과하면서도 유사한 아키텍처보다 더 우수한 정확도를 제공하는 두 가지 분할 아키텍처를 제안합니다. 이 모델의 가중치는 Imagenet 분류 데이터셋에서 훈련된 VGG19와 VGG16 같은 인기 있는 신경망에서 전달되었습니다. 그런 다음 모든 완전 연결 레이어를 합성곱 레이어로 변환하고, 매개변수를 줄이기 위해 딜레이티드 합성곱(dilated convolution)을 사용했습니다. 마지막으로, 더 작은 스트라이드를 추가하고, 디컨볼루션 레이어와 단계적으로 요소별로 더해지는 네 개의 스킵 아키텍처(skip architecture)를 연결했습니다. 우리는 Pascal VOC2012, Pascal-Context 및 NYUDv2와 같은 다양한 희소(sparse) 및 세부(fine) 데이터셋에서 훈련 및 테스트를 수행하여 우리의 모델이 이러한 작업에서 어떻게 더 우수하게 작동하는지를 보여주었습니다. 한편, 우리의 모델은 NVIDIA Pascal GPU에서 훈련 및 테스트 시 추론 시간이 더 빠르고 메모리 소비가 적어, 픽셀 단위 분할에 있어 효율적이면서 메모리를 덜 소비하는 아키텍처임을 입증하였습니다.