17일 전

토큰 기반 표현을 활용한 이미지 검색

Hui Wu, Min Wang, Wengang Zhou, Yang Hu, Houqiang Li
토큰 기반 표현을 활용한 이미지 검색
초록

이미지 검색 분야에서 데이터 기반 방식으로 학습된 딥 로컬 특징은 검색 성능 향상에 효과적임이 입증되었다. 대규모 이미지 데이터베이스에서 효율적인 검색을 실현하기 위해, 일부 접근법은 큰 코드북을 사용하여 딥 로컬 특징을 양자화하고, 집계된 매칭 커널을 통해 이미지를 매칭한다. 그러나 이러한 방법들은 큰 메모리 사용량을 동반하여 복잡도가 상당히 높아, 특징 학습과 집계를 동시에 수행하는 능력을 제한한다. 보다 컴팩트한 전역 표현을 생성하면서도 지역적 매칭 능력을 유지하기 위해, 본 연구에서는 로컬 특징 표현과 집계를 함께 학습할 수 있는 통합적 프레임워크를 제안한다. 제안하는 프레임워크에서는 먼저 CNN을 이용해 딥 로컬 특징을 추출한 후, 토크나이저 모듈을 설계하여 특징들을 몇 개의 시각적 토큰으로 집계한다. 각 시각적 토큰은 특정한 시각적 패턴을 대표하며, 배경 노이즈를 제거하고 이미지 내에서 더 구분력 있는 영역을 포착하는 데 기여한다. 다음으로, 자기 주의(self-attention)와 크로스 주의(cross-attention)를 활용한 정제 블록을 도입하여 시각적 토큰의 표현력을 강화한다. 마지막으로, 다양한 시각적 토큰들을 연결하여 컴팩트한 전역 표현을 생성한다. 전체 프레임워크는 이미지 수준의 레이블을 기반으로 엔드투엔드 방식으로 학습된다. 제안된 방법의 성능을 평가하기 위해 광범위한 실험을 수행하였으며, Revisited Oxford 및 Paris 데이터셋에서 기존 최고 성능 기법들을 모두 상회하는 결과를 보였다.

토큰 기반 표현을 활용한 이미지 검색 | 최신 연구 논문 | HyperAI초신경