DeepLab: 딥 컨볼루션 네트워크, 아트루스 컨볼루션 및 완전 연결형 CRF를 이용한 의미 이미지 분할

본 연구에서는 딥 러닝을 활용한 의미 이미지 분할 작업에 대해 다루고 있으며, 실험적으로 실질적인 가치가 입증된 세 가지 주요 기여를 제시합니다. 첫째, 업샘플링 필터와의 합성곱, 즉 '아트러스 합성곱'을 밀도 예측 작업에서 강력한 도구로 강조합니다. 아트러스 합성곱은 딥 컨볼루셔널 신경망 내에서 특징 반응이 계산되는 해상도를 명시적으로 제어할 수 있게 합니다. 또한 파라미터 수나 계산량을 증가시키지 않으면서 필터의 시야 범위를 확대하여 더 큰 문맥을 통합할 수 있습니다. 둘째, 우리는 여러 스케일에서 객체를 견고하게 분할하기 위해 아트러스 스페이셜 피라미드 풀링(ASPP)을 제안합니다. ASPP는 다양한 샘플링 속도와 효과적인 시야 범위로 들어오는 컨볼루셔널 특징 레이어를 탐색하여, 여러 스케일에서 객체와 이미지 문맥을 포착합니다. 셋째, DCNN과 확률 그래픽 모델의 방법론을 결합하여 객체 경계의 위치 정확성을 개선합니다. DCNN에서 일반적으로 사용되는 최대 풀링(max-pooling)과 다운샘플링(downsampling) 조합은 불변성을 달성하지만 위치 정확성에 영향을 미칩니다. 이를 극복하기 위해 최종 DCNN 레이어의 반응과 완전 연결 조건부 랜덤 필드(CRF)를 결합하였으며, 이는 질적 및 양적 측면에서 위치 성능 개선에 기여함을 보여주었습니다. 우리가 제안하는 "DeepLab" 시스템은 PASCAL VOC-2012 의미 이미지 분할 작업에서 새로운 최고 성능을 달성하여 테스트 세트에서 79.7%의 mIOU를 기록하였으며, PASCAL-Context, PASCAL-Person-Part, Cityscapes 등 다른 세 가지 데이터셋에서도 결과를 개선했습니다. 모든 코드는 온라인으로 공개되었습니다.