
초록
최근 깊은 합성곱 신경망(CNN)을 사용하여 추출된 강력한 특징들 덕분에 주요 객체 검출 분야에서 상당한 진전이 이루어졌습니다. 그러나 기존의 CNN 기반 방법들은 픽셀 수준이 아닌 패치 수준에서 작동합니다. 이로 인해 생성되는 주의도 맵은 특히 주요 객체 경계 근처에서 흐리게 나타나는 경향이 있습니다. 또한, 이미지 패치들이 중첩되더라도 독립적인 샘플로 처리되어 계산과 저장에 있어 상당한 중복성이 발생합니다. 본 CVPR 2016 논문에서는 이러한 제약들을 극복하기 위해 엔드투엔드 심층 대조 네트워크를 제안합니다. 우리의 심층 네트워크는 픽셀 수준 완전 합성곱 스트림과 세그먼트 수준 공간 풀링 스트림으로 구성된 두 개의 보완적 구성 요소를 포함합니다. 첫 번째 스트림은 입력 이미지로부터 직접 픽셀 수준 정확도의 주의도 맵을 생성합니다. 두 번째 스트림은 매우 효율적으로 세그먼트 수준 특징을 추출하며, 객체 경계를 따라 주의도 불연속성을 더 잘 모델링합니다. 마지막으로, 이 두 스트림에서 융합된 결과의 공간 일관성과 윤곽 위치를 개선하기 위해 옵션으로 완전 연결 CRF 모델을 통합할 수 있습니다. 실험 결과는 우리의 심층 모델이 기존 최신 기술보다 크게 향상됨을 입증하고 있습니다.