
초록
컨벌루션 네트워크는 강력한 시각 모델로, 특징의 계층 구조를 생성합니다. 우리는 컨벌루션 네트워크가 자체적으로, 끝에서 끝으로, 픽셀에서 픽셀로 훈련될 때 의미 분할에서 이전 최고 결과를 개선한다는 것을 보여줍니다. 우리의 핵심 통찰은 임의의 크기의 입력을 받아 효율적인 추론과 학습으로 동일한 크기의 출력을 생성하는 "완전 컨벌루션" 네트워크를 구축하는 것입니다. 우리는 완전 컨벌루션 네트워크의 공간을 정의하고 상세히 설명하며, 공간적으로 밀집된 예측 작업에 대한 적용 방법과 이전 모델들과의 연관성을 설명합니다. 우리는 현대적인 분류 네트워크(AlexNet, VGG 넷, GoogLeNet)를 완전 컨벌루션 네트워크로 변환하고, 세그멘테이션 작업에 미세 조정(fine-tuning)을 통해 그들이 학습한 표현을 전송합니다. 그런 다음, 깊고 거친 층에서 의미 정보와 얕고 세부적인 층에서 외관 정보를 결합하여 정확하고 상세한 세그멘테이션을 생성하는 스킵 아키텍처(skip architecture)를 정의합니다. 우리의 완전 컨벌루션 네트워크는 PASCAL VOC(2012년 데이터셋에서 평균 IU 30% 상대적 개선으로 67.2%), NYUDv2, SIFT Flow, 그리고 PASCAL-Context에서 세그멘테이션 성능을 개선했으며, 일반 이미지에 대한 추론 시간은 10분의 1초입니다.