
조합 이미지 검색(CIR, Composed Image Retrieval)은 참조 이미지와 수정된 텍스트의 조합으로 쿼리를 구성하여 사용자의 의도를 더 잘 포착할 수 있는 새로운 형태의 이미지 검색 방식으로 등장했습니다. 그러나 감독 학습 방식으로 CIR 모델을 훈련시키는 것은 일반적으로 (참조 이미지, 텍스트 수정자, 대상 이미지) 트리플렛을 수집하는 데 많은 노동력을 필요로 합니다. 기존의 제로샷 CIR(ZS-CIR, Zero-Shot Composed Image Retrieval) 방법들은 특정 하류 데이터셋에서의 훈련을 필요로 하지 않지만, 여전히 대규모 이미지 데이터셋에 대한 사전 훈련이 필요합니다. 본 논문에서는 이러한 문제를 해결하기 위해 ZS-CIR을 위한 훈련이 불필요한 접근법을 소개합니다. 우리의 접근법인 WeiMoCIR(Weighted Modality fusion and similarity for CIR)는 이미지와 텍스트 모달리티가 간단한 가중 평균을 사용하여 효과적으로 결합될 수 있다는 가정하에 작동합니다. 이는 참조 이미지와 텍스트 수정자를 직접 결합하여 쿼리 표현을 구성할 수 있게 합니다. 검색 성능을 더욱 개선하기 위해 우리는 다중 모달 대형 언어 모델(MLLMs, Multimodal Large Language Models)을 활용하여 데이터베이스 이미지를 위한 이미지 캡션을 생성하고, 이 캡션들을 이미지 정보와 가중 평균을 사용하여 유사성 계산에 통합합니다. 우리의 접근법은 단순하며 구현이 용이하며, FashionIQ 및 CIRR 데이터셋에서 수행된 실험을 통해 그 유효성이 확인되었습니다. 코드는 https://github.com/whats2000/WeiMoCIR에서 제공됩니다.