
초록
인스턴스 수준 이미지 검색은 쿼리 이미지 내 객체와 일치하는 이미지를 대규모 데이터베이스에서 검색하는 작업이다. 이 작업을 해결하기 위해 기존 시스템은 일반적으로 전역 이미지 특징을 활용하는 검색 단계와, 지역적 특징 기반의 기하학적 검증과 같은 연산을 통해 도메인 특화된 보정 또는 재정렬을 수행하는 후속 단계에 의존한다. 본 연구에서는 이러한 복잡한 기하학적 검증 과정을 대체할 수 있도록, 지역적 특징과 전역적 특징을 동시에 활용하여 일관된 방식으로 매칭 이미지를 재정렬하는 일반적인 모델인 Reranking Transformers(RRTs)를 제안한다. RRTs는 가볍고 병렬 처리가 용이하여, 상위 매칭 결과 집합을 단일 순전파(forward-pass)로 재정렬할 수 있다. 우리는 Revisited Oxford 및 Paris 데이터셋과 Google Landmarks v2 데이터셋에서 광범위한 실험을 수행하여, 기존 재정렬 기법보다 뛰어난 성능을 보였으며, 동시에 훨씬 적은 수의 지역적 특징을 사용함을 확인하였다. 또한, 기존 방법과 달리 RRTs는 특징 추출기와 함께 공동 최적화가 가능하다는 점을 입증하였으며, 이는 하류 작업에 적합한 특징 표현을 도출하고 추가적인 정확도 향상으로 이어질 수 있음을 시사한다. 코드와 학습된 모델은 공개적으로 https://github.com/uvavision/RerankingTransformer 에서 제공된다.