2달 전
무학습 영역 변환을 위한 합성 이미지 검색
Nikos Efthymiadis; Bill Psomas; Zakaria Laskar; Konstantinos Karantzalos; Yannis Avrithis; Ondřej Chum; Giorgos Tolias

초록
이 연구는 도메인 변환의 맥락에서 구성된 이미지 검색 문제를 다룹니다. 쿼리 텍스트가 지정한 도메인에서 쿼리 이미지의 내용을 검색하는 것이 목표입니다. 우리는 강력한 시각-언어 모델이 추가적인 학습 없이 충분한 설명력을 제공함을 보여줍니다. 쿼리 이미지는 텍스트 입력 공간으로 텍스트 인버전(textual inversion)을 통해 매핑됩니다. 일반적으로 연속적인 텍스트 토큰 공간에서 인버전을 수행하지만, 우리는 텍스트 어휘 사전에서 최근접 이웃 탐색을 통해 이산 단어 공간을 사용합니다. 이러한 인버전을 통해 이미지는 어휘 사전에 부드럽게 매핑되며, 검색 기반 증강을 통해 더 견고하게 만들어집니다. 데이터베이스 이미지는 매핑된 단어와 도메인 텍스트를 결합한 가중 앙상블(weighted ensemble)의 텍스트 쿼리를 통해 검색됩니다. 우리의 방법은 표준 벤치마크와 새로 소개된 벤치마크에서 이전 연구보다 크게 우수한 성능을 보입니다. 코드: https://github.com/NikosEfth/freedom