언어를 통한 비전(Vision-by-Language)을 이용한 무학습 조합적 이미지 검색

이미지와 목표 수정 사항(예: 에펠탑의 이미지와 "사람 없이 밤 시간에"라는 텍스트)가 주어질 때, 조합적 이미지 검색(Compositional Image Retrieval, CIR)은 데이터베이스에서 관련 목표 이미지를 검색하는 것을 목표로 합니다. 감독된 접근 방식은 비용이 많이 드는 트리플렛을 주석화하는 데 의존합니다(즉, 쿼리 이미지, 텍스트 수정 사항, 그리고 목표 이미지). 그러나 최근 연구에서는 대규모 시각-언어 모델(Vision-Language Models, VLMs)을 사용하여 이 필요성을 우회하며 제로샷 CIR(Zero-Shot CIR, ZS-CIR)를 수행하고 있습니다. 그럼에도 불구하고, 최신 ZS-CIR 접근 방식들은 여전히 대량의 이미지-텍스트 쌍 위에서 작업 특화된 맞춤형 모델을 학습해야 하는 단점이 있습니다.본 연구에서는 CIReVL(Compositional Image Retrieval through Vision-by-Language)이라는 간단하면서도 인간이 이해할 수 있고 확장성이 뛰어난 파이프라인을 통해 학습 없이 CIR 문제를 해결하는 방법을 제안합니다. CIReVL은 사전 학습된 생성적 VLM을 사용하여 참조 이미지를 캡셔닝한 후, LLM(Large Language Models)에게 텍스트 수정 사항에 따라 캡션을 재구성하도록 요청하여 CLIP 등의 후속 검색을 수행함으로써 모듈화된 언어 추론을 실현합니다. 네 개의 ZS-CIR 벤치마크에서 경쟁력 있는 부분적으로 최신 성능을 달성하였으며, 감독된 방법보다 개선되었습니다.또한 CIReVL의 모듈성은 재학습 없이 간단하게 확장할 수 있어, ZS-CIR의 스케일링 법칙과 병목 현상을 조사하고 이전에 보고된 결과보다 최대 두 배 이상 쉽게 확장할 수 있는 기회를 제공합니다. 마지막으로, CIReVL은 언어 영역에서 이미지와 텍스트를 모듈화하여 조합함으로써 CIR를 인간이 이해할 수 있게 만드는 것이 가능하다는 점을 보여주며, 이를 통해 실패 사례를 후속적으로 재정렬할 수 있도록 합니다. 코드는 논문이 받아들여진 후 공개될 예정입니다.