
초록
최근, 합성곱 신경망(CNN)을 기반으로 구축된 이미지 표현이 이미지 검색을 위한 효과적인 설명자를 제공하며, 사전 CNN 특징들보다 짧은 벡터 표현에서 우수한 성능을 보이는 것으로 나타났습니다. 그러나 이러한 모델들은 기하학적 재순위 결정 방법과 호환되지 않으며, 일부 특정 객체 검색 벤치마크에서는 정확한 설명자 매칭, 기하학적 재순위 결정 또는 쿼리 확장을 기반으로 하는 전통적인 이미지 검색 시스템에 의해 여전히 능가되고 있습니다. 본 연구는 CNN으로부터 도출된 동일한 원시 정보를 사용하여 초기 검색 및 재순위 결정이라는 두 단계의 검색 과정을 다시 살펴봅니다. 우리는 네트워크에 여러 입력을 공급할 필요 없이 여러 이미지 영역을 인코딩하는 컴팩트한 특징 벡터를 구축합니다. 또한, 합성곱 계층 활성화에서 최대 풀링(max-pooling)을 처리하기 위해 적분 이미지를 확장하여 효율적으로 일치하는 객체를 위치결정할 수 있게 합니다. 최종적으로 얻어진 바운딩 박스는 이미지 재순위 결정에 사용됩니다. 그 결과, 본 논문은 기존의 CNN 기반 인식 파이프라인을 크게 개선하였습니다: 우리는 처음으로 옥스퍼드5k와 파리6k 데이터셋에서 전통적인 방법들과 경쟁력 있는 결과를 보고합니다.