정확한 객체 검출 및 의미 분할을 위한 풍부한 특징 계층

PASCAL VOC 데이터셋에서 측정된 객체 검출 성능은 최근 몇 년 동안 정체 상태에 빠져 있습니다. 가장 우수한 방법들은 일반적으로 여러 개의 저레벨 이미지 특징과 고레벨 문맥을 결합하는 복잡한 앙상블 시스템입니다. 본 논문에서는 단순하면서도 확장성이 뛰어난 검출 알고리즘을 제안합니다. 이 알고리즘은 VOC 2012에서 이전 최고 결과보다 상대적으로 평균 정밀도(mAP, mean average precision)를 30% 이상 향상시켜 mAP 53.3%를 달성하였습니다. 우리의 접근 방식은 두 가지 핵심 통찰력을 결합한 것입니다: (1) 하향식 영역 제안(bottom-up region proposals)에 고용량 컨볼루션 신경망(CNNs, Convolutional Neural Networks)을 적용하여 객체를 위치 추적하고 분할할 수 있으며 (2) 라벨이 부착된 훈련 데이터가 부족할 때, 보조 작업을 위한 감독된 사전 학습(pre-training) 후 도메인별 미세 조정(fine-tuning)을 수행하면 성능이 크게 향상됩니다. 우리는 영역 제안과 CNNs를 결합하기 때문에, 이 방법을 R-CNN: CNN 특징을 사용한 영역(Regions with CNN features)이라고 명명하였습니다. 또한, 유사한 CNN 구조를 기반으로 하는 최근 제안된 슬라이딩 윈도우 검출기인 OverFeat와 R-CNN을 비교하였습니다. ILSVRC2013 200 클래스 검출 데이터셋에서 R-CNN이 OverFeat보다 큰 마진으로 우수한 성능을 보임을 확인하였습니다. 전체 시스템의 소스 코드는 http://www.cs.berkeley.edu/~rbg/rcnn 에서 제공됩니다.