언어만을 이용한 제로샷 복합 이미지 검색의 효율적 훈련

구성된 이미지 검색(CIR) 작업은 이미지와 텍스트로 구성된 쿼리를 사용하여 두 조건 모두에 해당하는 이미지를 검색하는 것을 목표로 합니다. 기존의 CIR 접근 방식은 쿼리 이미지, 쿼리 텍스트 및 대상 이미지로 이루어진 트립렛 데이터셋이 필요하지만, 이는 수집하기 매우 비싸고 어렵습니다. 최근 여러 연구에서는 사전 수집된 트립렛을 사용하지 않고 이 문제를 해결하기 위한 제로샷(ZS) CIR 패러다임을 다루었습니다. 그러나 기존의 ZS-CIR 방법들은 훈련 중 입력 텍스트의 다양성이 부족하여 백본 확장성과 일반화 능력이 제한적입니다.우리는 언어만을 사용하여 훈련되는 새로운 CIR 프레임워크를 제안합니다. 우리의 LinCIR(언어 전용 훈련을 위한 CIR)는 새로운 자기 감독 방법인 자기 마스킹 프로젝션(SMP, Self-Masking Projection)을 통해 텍스트 데이터셋으로만 훈련될 수 있습니다. 우리는 텍스트 잠재 임베딩을 토큰 임베딩 공간으로 프로젝트하고, 원래 텍스트의 핵심 단어 토큰을 교체하여 새로운 텍스트를 생성합니다. 그런 다음, 새롭게 생성된 텍스트와 원래 텍스트가 동일한 잠재 임베딩 벡터를 갖도록 합니다. 이 간단한 전략 덕분에 LinCIR는 놀라울 정도로 효율적이며 효과적입니다. CLIP ViT-G 백본을 사용한 LinCIR는 48분 만에 훈련되며, CIRCO, GeneCIS, FashionIQ, 그리고 CIRR 등 네 가지 다른 CIR 벤치마크에서 최고의 ZS-CIR 성능을 보여주며 특히 FashionIQ에서 지도 학습 방법보다 우수한 성능을 발휘했습니다. 코드는 https://github.com/navervision/lincir 에서 확인할 수 있습니다.