
초록
대규모 라벨링된 데이터셋으로 훈련된 합성곱 신경망(컨볼루션 네트워크, convnets)은 이미지 분류 및 객체 검출 분야에서 현존하는 최고 수준의 성능을 크게 개선하였습니다. 그러나 시각적 이해는 객체 카테고리보다 더 세밀한 수준에서 대응성을 확립하는 것을 요구합니다. 컨볼루션 네트워크의 큰 풀링 영역과 전체 이미지 라벨로의 훈련을 고려할 때, 이들이 정확한 대응 모델로부터 성공을 얻었다는 점이 명확하지 않습니다. 이 모델은 정밀한 위치 지정에 사용될 수 있습니다. 본 논문에서는 컨볼루션 네트워크 활성화 특징이 대응성이 필요한 작업에서 얼마나 효과적인지를 연구합니다. 우리는 컨볼루션 네트워크 특징이 그들의 수용 영역 크기보다 훨씬 더 세밀한 규모에서 위치 지정을 수행하며, 전통적인 수작업으로 설계된 특징과 동일하게 클래스 내 정렬을 수행할 수 있으며, PASCAL VOC 2011 데이터셋의 객체에 대한 주요점 예측에서 전통적인 특징을 능가한다는 증거를 제시합니다.