Zero-Shot Composed Image Retrieval with Textual Inversion 제로샷 구성 이미지 검색을 위한 텍스트 인버전

구성된 이미지 검색(Composed Image Retrieval, CIR)은 참조 이미지와 두 이미지 간의 차이를 설명하는 상대적 캡션으로 구성된 쿼리를 기반으로 대상 이미지를 검색하는 것을 목표로 합니다. CIR 데이터셋을 라벨링하는 데 필요한 높은 노력과 비용은 기존 방법들이 지도 학습에 의존하기 때문에 광범위한 사용을 방해하고 있습니다. 본 연구에서는 라벨링된 훈련 데이터셋이 필요하지 않은 CIR 문제를 해결하기 위한 새로운 작업인 제로샷 CIR(Zero-Shot CIR, ZS-CIR)를 제안합니다. 우리의 접근 방식인 텍스트 역전환(textual inversion)을 활용한 제로샷 구성 이미지 검색(SEARLE)은 참조 이미지의 시각적 특성을 CLIP 토큰 임베딩 공간에서 가짜 단어 토큰(pseudo-word token)으로 매핑하여 상대적 캡션과 통합합니다. ZS-CIR 연구를 지원하기 위해, 각 쿼리에 여러 개의 정답(ground truth)을 포함하는 첫 번째 CIR 데이터셋인 일반 객체 문맥에서의 구성된 이미지 검색(Composed Image Retrieval on Common Objects in context, CIRCO) 벤치마크 데이터셋을 소개합니다. 실험 결과 SEARLE는 패션IQ(FashionIQ)와 CIRR(Cross-Image Relative Retrieval)라는 두 주요 CIR 작업 데이터셋 및 제안된 CIRCO에서 기준선(baseline)보다 더 우수한 성능을 보임을 확인할 수 있었습니다. 이 데이터셋, 코드 및 모델은 https://github.com/miccunifi/SEARLE에서 공개적으로 이용 가능합니다.