
Composed Image Retrieval(CIR) 작업은 참조 이미지와 수정된 텍스트로 구성된 복합 쿼리를 사용하여 대상 이미지를 검색하는 것을 목표로 합니다. 고급 방법들은 일반적으로 충분한 양의 긍정적 및 부정적 예제를 활용하여 최적화 목표로 대조 학습(contrastive learning)을 사용합니다. 그러나 CIR에 대한 트리플릿(triplet) 생성은 높은 수작업 주석 비용을 초래하여 긍정적 예제가 제한적이게 됩니다. 또한, 기존 방법들은 배치 내 부정 샘플링(in-batch negative sampling)을 주로 사용하여 모델에 사용할 수 있는 부정 예제의 수를 줄입니다. 이러한 문제를 해결하기 위해, 우리는 다중 모달(multi-modal) 대형 언어 모델을 활용하여 CIR에 대한 트리플릿을 구축하는 데이터 생성 방법을 제안합니다. 더 많은 부정 예제를 미세 조정(fine-tuning) 과정에서 도입하기 위해, 우리는 두 단계의 미세 조정 프레임워크를 설계하였습니다. 이 프레임워크의 두 번째 단계에서는 많은 정적인 부정 표현(static representations of negatives)을 도입하여 표현 공간을 신속하게 최적화합니다. 위의 두 개의 개선 사항은 효과적으로 결합되어 플러그-앤플레이(plug-and-play) 방식으로 설계되어 기존 CIR 모델에 적용할 수 있으며, 원래 아키텍처를 변경하지 않아도 됩니다. 광범위한 실험과 절단 분석(ablation analysis) 결과, 우리의 방법이 긍정적 및 부정적 예제를 효과적으로 확장하고 FashionIQ 및 CIRR 데이터셋에서 최고 성능을 달성함을 입증하였습니다. 또한, 우리의 방법은 저자원 환경(low-resources scenario)에서 제로샷(zero-shot) 복합 이미지 검색에서도 우수한 성능을 보여주며, 새로운 CIR 솔루션을 제공합니다. 우리의 코드와 데이터는 https://github.com/BUAADreamer/SPN4CIR 에서 공개되었습니다.