18일 전

의미 편집 증분은 제로샷 복합 이미지 검색에 긍정적인 영향을 미친다

{Changsheng Xu, WeiMing Dong, Fan Yang, JiaHong Wu, Dizhan Xue, Shengsheng Qian, Zhenyu Yang}
초록

최근 몇 년 동안, 학습 샘플 없이 참조 이미지와 상대적 텍스트로 구성된 쿼리를 기반으로 특정 이미지를 검색하는 '제로샷 조합 이미지 검색(Zero-Shot Composed Image Retrieval, ZS-CIR)'에 대한 관심이 점차 증가하고 있다. 구체적으로 상대적 텍스트는 두 이미지 간의 차이점을 기술한다. 기존의 ZS-CIR 방법들은 이미지-텍스트(image-to-text, I2T) 모델을 활용하여 쿼리 이미지를 단일 캡션으로 변환한 후, 이 캡션을 상대적 텍스트와 텍스트 융합(text-fusion) 기법을 통해 조합하여 검색을 위한 종합 텍스트를 생성한다. 그러나 이러한 기법들은 ZS-CIR이 단지 종합 텍스트와 검색된 이미지 간의 최종 유사도를 고려하는 것뿐만 아니라, 조합 편집 과정에서 발생하는 의미 증가(sematic increment)도 함께 고려해야 한다는 점을 간과하고 있다. 이러한 한계를 해결하기 위해, 본 논문에서는 학습 과정 없이 참조 이미지와 텍스트를 기반으로 타깃 이미지를 검색할 수 있는 훈련 불필요한 새로운 방법인 '의미 편집 증가를 위한 ZS-CIR(Semantic Editing Increment for ZS-CIR, SEIZE)'을 제안한다. 먼저, 사전 훈련된 캡션 모델을 사용하여 참조 이미지에 대해 다양한 캡션을 생성하고, 이를 기반으로 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 광범위한 조합적 추론을 수행함으로써 타깃 이미지의 잠재적 의미를 포괄한다. 이후, 상대적 텍스트가 기여하는 의미 편집 증가를 검색 과정에 통합하기 위해 의미 편집 검색(semantic editing search)을 설계한다. 구체적으로, 최종 검색 점수 산정 시 상대적 의미 증가와 절대적 유사도를 종합적으로 고려하며, 이 점수는 CLIP 특징 공간에서 타깃 이미지를 검색하는 데 활용된다. 공개 데이터셋 3개에 대한 광범위한 실험 결과, 제안하는 SEIZE 방법이 새로운 최고 성능(SOTA)을 달성함을 입증하였다. 코드는 공개적으로 제공되며, 다음 링크에서 확인 가능하다: https://github.com/yzy-bupt/SEIZE.

의미 편집 증분은 제로샷 복합 이미지 검색에 긍정적인 영향을 미친다 | 최신 연구 논문 | HyperAI초신경