iSEARLE: 제로샷 구성 이미지 검색을 위한 텍스트 인버전 개선

주어진 쿼리가 참조 이미지와 상대적인 캡션으로 구성되는 경우,합성 이미지 검색(Composed Image Retrieval, CIR)은 참조 이미지와 시각적으로 유사한 대상 이미지를 검색하면서 상대적인 캡션에서 지정된 변경 사항을 포함하는 것을 목표로 합니다. 감독 학습 방법의 노동 집약적인 수작업 라벨링 데이터셋에 대한 의존성이 그들의 광범위한 적용을 방해합니다. 본 연구에서는 라벨링된 훈련 데이터셋이 필요하지 않은 CIR 문제를 해결하기 위한 새로운 작업인 제로샷 CIR (Zero-Shot Composed Image Retrieval, ZS-CIR)을 소개합니다. 우리는 iSEARLE(improved zero-Shot composed imAge Retrieval with textuaL invErsion)라는 접근법을 제안하며, 이는 참조 이미지의 시각적 정보를 CLIP 토큰 임베딩 공간에서 가짜 단어 토큰으로 매핑하고 이를 상대적인 캡션과 결합하는 과정을 포함합니다. ZS-CIR 연구를 촉진하기 위해, 우리는 각 쿼리가 여러 개의 정답과 의미 범주화로 라벨링된 첫 번째 CIR 데이터셋인 CIRCO(Composed Image Retrieval on Common Objects in context)라는 오픈 도메인 벤치마킹 데이터셋을 제시합니다. 실험 결과는 iSEARLE이 패션IQ(FashionIQ), CIRR(CIRR), 그리고 제안된 CIRCO 등 세 가지 다른 CIR 데이터셋과 도메인 변환 및 객체 합성이라는 두 가지 추가 평가 설정에서 최신 성능을 달성함을 보여줍니다. 데이터셋, 코드, 및 모델은 공개적으로 https://github.com/miccunifi/SEARLE에서 이용 가능합니다.