
딥 러닝이 많은 컴퓨터 비전 작업에서 최고 성능을 내는 방법의 핵심 요소가 되었지만, 인스턴스 수준 이미지 검색에는 아직 유사한 개선을 가져오지 못했습니다. 본 논문에서는 딥 메서드가 이미지 검색에서 저조한 결과를 보이는 이유가 세 가지로 귀결된다고 주장합니다: i) 노이즈가 있는 훈련 데이터, ii) 부적절한 딥 아키텍처, iii) 최적화되지 않은 훈련 절차입니다. 우리는 이 세 가지 문제를 모두 다룹니다.첫째, 대규모이지만 노이즈가 있는 랜드마크 데이터셋을 활용하여 딥 검색에 적합한 훈련 집합을 생성하는 자동 정제 방법을 개발하였습니다. 둘째, 최근의 R-MAC 설명자를 기반으로 하여 이를 딥이고 미분 가능한 아키텍처로 해석할 수 있음을 보여주며, 이를 강화하기 위한 개선 사항을 제시합니다. 마지막으로, 트리플렛 손실 함수를 사용하여 세 개의 스트림을 결합하는 시아메즈(Siamese) 아키텍처로 이 네트워크를 훈련시키습니다. 훈련 과정의 마지막 단계에서 제안된 아키텍처는 단일 순방향 전달 과정으로 전역 이미지 표현을 생성하며, 이는 이미지 검색에 매우 적합합니다.다양한 실험 결과는 우리의 접근 방식이 비용이 많이 드는 로컬 설명자 색인 및 공간 검증 기반의 최신 방법들을 포함하여 이전의 모든 검색 접근 방식보다 크게 우수함을 입증하였습니다. 옥스퍼드 5k, 파리 6k 및 홀리데이 데이터셋에서 각각 94.7%, 96.6%, 94.8%의 평균 정밀도(mean average precision)를 보고하였습니다. 또한 우리의 표현은 제품 양자화(product quantization)를 통해 크게 압축될 수 있으며, 정확성에 거의 영향을 미치지 않습니다. 추가 자료는 www.xrce.xerox.com/Deep-Image-Retrieval에서 확인하실 수 있습니다.