2달 전
대규모 이미지 검색을 위한 주의력 기반 깊은 로컬 특징
Hyeonwoo Noh; Andre Araujo; Jack Sim; Tobias Weyand; Bohyung Han

초록
우리는 대규모 이미지 검색에 적합한 주의력 기반 지역 특징 설명자를 제안하며, 이를 DELF (DEep Local Feature)라고 지칭합니다. 이 새로운 특징은 랜드마크 이미지 데이터셋에서 이미지 수준의 주석만으로 훈련된 합성곱 신경망을 기반으로 합니다. 또한, 이미지 검색에 유용한 의미론적 지역 특징을 식별하기 위해, 설명자와 대부분의 네트워크 계층을 공유하는 키포인트 선택을 위한 주의력 메커니즘도 제안합니다. 이 프레임워크는 다른 키포인트 감지기 및 설명자의 대체품으로 사용되어 보다 정확한 특징 매칭과 기하학적 검증을 가능하게 합니다. 우리의 시스템은 거짓 양성을 거부하기 위해 신뢰할 수 있는 신뢰도 점수를 생성하며, 특히 데이터베이스에 맞는 정확한 결과가 없는 쿼리에 대해 강건합니다.제안된 설명자를 평가하기 위해, 우리는 배경 잡음, 부분 가림, 여러 랜드마크, 다양한 크기의 객체 등 데이터베이스와 쿼리 모두에서 도전적인 요소를 포함하는 새로운 대규모 데이터셋인 Google-Landmarks 데이터셋을 소개합니다. 실험 결과 DELF는 대규모 환경에서 현존하는 최고의 전역 및 지역 설명자를 크게 능가함을 보여주었습니다. 코드와 데이터셋은 프로젝트 웹페이지에서 확인할 수 있습니다: https://github.com/tensorflow/models/tree/master/research/delf .