
초록
우리는 인스턴스 수준의 인식을 위한 효율적인 딥 로컬 기술자 학습 방법을 제안한다. 본 방법의 학습은 긍정 및 부정 이미지 쌍의 예시만 필요하며, 전역 이미지 기술자의 합산 풀링된 표현에 대한 메트릭 학습 방식으로 수행된다. 추론 시, 로컬 기술자는 네트워크 내부 구성 요소의 활성화로부터 제공된다. 본 연구에서는 왜 이러한 접근 방식이 기존의 효율적인 매칭 커널 방법과 함께 이미지 유사도 추정에 효과적인 로컬 기술자를 학습하는지 설명한다. 실험적 검증을 통해 매칭 커널 기반의 최신 이미지 검색 기법의 성능과 메모리 요구량 사이의 트레이드오프를 분석한다. 기존의 로컬 기술자들과 비교하여 제안하는 기술자는 두 가지 인스턴스 수준 인식 작업에서 더 우수한 성능을 보이며, 메모리 요구량은 낮은 수준을 유지한다. 실험적으로 전역 기술자가 대규모 환경에서는 충분히 효과적이지 못하며, 로컬 기술자가 필수적임을 입증한다. 본 연구는 일부 사례에서 ResNet18과 같은 매우 작은 백본 네트워크를 사용함에도 불구하고 최신 기술 수준의 성능을 달성하였다.