문장 수준의 프롬프트가 합성 이미지 검색에 도움을 줍니다.

조합 이미지 검색(CIR, Composed Image Retrieval)은 참조 이미지와 상대적 캡션을 포함하는 쿼리를 사용하여 특정 이미지를 검색하는 작업입니다. 기존의 대부분 CIR 모델들은 시각적 특성과 언어적 특성을 결합하기 위해 후기 융합(late-fusion) 전략을 채택하고 있습니다. 또한, 참조 이미지에서 유사 단어 토큰(pseudo-word token)을 생성하여 이를 상대적 캡션에 통합해 CIR를 수행하는 몇 가지 접근 방식도 제안되었습니다. 그러나 이러한 유사 단어 기반 프롬프팅 방법들은 참조 이미지에서 복잡한 변화(예: 객체 제거 및 속성 수정)가 발생할 때 한계를 보입니다.본 연구에서는 상대적 캡션에 적절한 문장 수준 프롬프트(sentence-level prompt for the relative caption, SPRC)를 학습하는 것이 효과적인 조합 이미지 검색을 달성하기에 충분하다는 것을 입증합니다. 유사 단어 기반 프롬프팅에 의존하지 않고, BLIP-2와 같은 사전 학습된 V-L 모델들을 활용하여 문장 수준 프롬프트를 생성하는 방법을 제안합니다. 학습된 문장 수준 프롬프트를 상대적 캡션과 연결(concatenating)하면, 기존의 텍스트 기반 이미지 검색 모델들을 사용하여 CIR 성능을 향상시킬 수 있습니다.또한, 우리는 이미지-텍스트 대조 손실(image-text contrastive loss)과 텍스트 프롬프트 정렬 손실(text prompt alignment loss)을 도입하여 적절한 문장 수준 프롬프트의 학습을 강화합니다. 실험 결과, 본 연구에서 제안한 방법이 Fashion-IQ 및 CIRR 데이터셋에서 최신의 CIR 방법들보다 우수한 성능을 보임을 확인하였습니다. 소스 코드와 사전 학습된 모델은 https://github.com/chunmeifeng/SPRC 에서 공개적으로 이용 가능합니다.