2달 전

BoQ: 장소는 학습 가능한 쿼리의 집합과 같다

Ali-Bey, Amar ; Chaib-draa, Brahim ; Giguère, Philippe
BoQ: 장소는 학습 가능한 쿼리의 집합과 같다
초록

시각적 장소 인식에서 다양한 환경 조건과 시점 하에서 위치의 이미지를 정확하게 식별하고 일치시키는 것은 여전히 중요한 과제입니다. 본 논문에서는 보편적인 장소 특异性 속성을 포착하도록 설계된 전역 쿼리 집합을 학습하는 새로운 기술인 Bag-of-Queries (BoQ)를 소개합니다. 기존 방법들이 자기 주의(self-attention)를 사용하여 입력 특성에서 직접 쿼리를 생성하는 것과 달리, BoQ는 교차 주의(cross-attention)를 통해 입력 특성을 탐색하는 고유한 학습 가능한 전역 쿼리를 활용하여 일관된 정보 집약을 보장합니다. 또한, 우리의 기술은 해석 가능한 주의 메커니즘을 제공하며 CNN과 Vision Transformer 백본에 모두 통합될 수 있습니다. BoQ의 성능은 14개의 대규모 벤치마크를 대상으로 한 광범위한 실험을 통해 입증되었습니다. 이는 NetVLAD, MixVPR 및 EigenPlaces와 같은 현재 최신 기술들을 일관되게 능가합니다. 더욱이, BoQ는 Patch-NetVLAD, TransVPR 및 R2Former와 같은 두 단계 검색 방법보다도 훨씬 빠르고 효율적이면서도 전역 검색 기술(단일 단계)로서 우수한 성능을 발휘합니다. 코드와 모델 가중치는 https://github.com/amaralibey/Bag-of-Queries에서 공개적으로 이용 가능합니다.