2달 전

NetVLAD: 약한 감독 하에 장소 인식을 위한 CNN 구조

Relja Arandjelović; Petr Gronat; Akihiko Torii; Tomas Pajdla; Josef Sivic
NetVLAD: 약한 감독 하에 장소 인식을 위한 CNN 구조
초록

우리는 대규모 시각적 장소 인식 문제를 다룹니다. 이 작업은 주어진 쿼리 사진의 위치를 빠르고 정확하게 인식하는 것입니다. 본 연구에서는 다음과 같은 세 가지 주요 기여점을 제시합니다.첫째, 장소 인식 작업을 위해 직접적으로 엔드투엔드 방식으로 학습 가능한 컨벌루션 신경망(CNN) 아키텍처를 개발하였습니다. 이 아키텍처의 주요 구성 요소인 NetVLAD는 '로컬리 집계된 디스크립터 벡터(Vector of Locally Aggregated Descriptors)' 이미지 표현에서 영감을 받은 새로운 일반화된 VLAD 레이어입니다. 이 레이어는 어떤 CNN 아키텍처에도 쉽게 통합될 수 있으며, 역전파(backpropagation)를 통해 학습할 수 있습니다.둘째, 시간 경과에 따라 동일한 장소를 묘사하는 Google Street View Time Machine에서 다운로드한 이미지를 사용하여 아키텍처의 매개변수를 엔드투엔드 방식으로 학습하기 위한 새로운 약간 지도된 순위 손실(weakly supervised ranking loss) 기반 훈련 절차를 개발하였습니다.셋째, 제안된 아키텍처가 두 가지 도전적인 장소 인식 벤치마크에서 미리 학습되지 않은 이미지 표현 및 사전 학습된 CNN 디스크립터보다 크게 우수함을 보였으며, 표준 이미지 검색 벤치마크에서 현재 최신의 컴팩트 이미지 표현보다 성능이 향상됨을 입증하였습니다.

NetVLAD: 약한 감독 하에 장소 인식을 위한 CNN 구조 | 최신 연구 논문 | HyperAI초신경