2달 전
Atrous Separable Convolution을 이용한 Semantic Image Segmentation을 위한 Encoder-Decoder 구조
Liang-Chieh Chen; Yukun Zhu; George Papandreou; Florian Schroff; Hartwig Adam

초록
공간 피라미드 풀링 모듈 또는 인코더-디코더 구조는 의미 분할 작업을 위한 깊은 신경망에서 사용됩니다. 전자의 네트워크는 여러 비율과 효과적인 시야각에서 필터 또는 풀링 연산을 통해 입력 특성을 탐색하여 다중 스케일 문맥 정보를 인코딩할 수 있으며, 후자의 네트워크는 공간 정보를 점진적으로 복원하여 더 선명한 객체 경계를 포착할 수 있습니다. 본 연구에서는 이 두 방법의 장점을 결합하는 것을 제안합니다. 특히, 제안된 모델인 DeepLabv3+는 단순하면서도 효과적인 디코더 모듈을 추가하여 객체 경계 주변의 분할 결과를 개선하도록 DeepLabv3를 확장합니다. 또한 Xception 모델을 탐구하고, Atrous Spatial Pyramid Pooling 및 디코더 모듈에 깊이별 분리 컨볼루션을 적용하여 더 빠르고 강력한 인코더-디코더 네트워크를 구현하였습니다. 본 논문에서는 제안된 모델의 효과성을 PASCAL VOC 2012 및 Cityscapes 데이터셋에서 입증하였으며, 어떠한 후처리 없이 테스트 세트 성능 89.0%와 82.1%를 달성하였습니다. 또한, 제안된 모델의 공개 참조 구현체가 Tensorflow로 제공되며, 해당 내용은 \url{https://github.com/tensorflow/models/tree/master/research/deeplab}에서 확인할 수 있습니다.