CoLLM: 구성 이미지 검색을 위한 대규모 언어 모델

복합 이미지 검색(Composed Image Retrieval, CIR)은 다중 모달 쿼리를 기반으로 이미지를 검색하는 복잡한 과제이다. 전형적인 학습 데이터는 참조 이미지, 원하는 수정 사항에 대한 텍스트 설명, 그리고 목표 이미지로 구성된 트리플릿(triplet)으로 이루어지며, 이러한 데이터는 확보하기 위해 상당한 비용과 시간이 소요된다. CIR 데이터셋의 부족으로 인해, 합성 트리플릿을 활용하거나 웹에서 수집된 이미지-캡션 쌍을 활용하는 시각-언어 모델(Vision-Language Models, VLMs)을 이용한 제로샷(Zero-shot) 접근 방식이 등장하였다. 그러나 이러한 방법들은 상당한 한계를 지닌다. 합성 트리플릿은 규모 제한, 다양성 부족, 자연스럽지 않은 수정 텍스트 등의 문제를 겪으며, 이미지-캡션 쌍은 트리플릿 데이터의 부재로 인해 다중 모달 쿼리의 공동 임베딩 학습을 방해한다. 게다가 기존의 접근 방식은 시각과 언어 모달 간의 복잡하고 세밀한 융합을 요구하는 수정 텍스트 처리에 어려움을 겪는다. 본 연구에서는 이러한 한계를 효과적으로 해결하는 통합적 프레임워크인 CoLLM을 제안한다. 본 방법은 이미지-캡션 쌍으로부터 실시간으로 트리플릿을 생성함으로써, 수동 레이블링 없이도 감독 학습을 가능하게 한다. 또한, 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 참조 이미지와 수정 텍스트의 공동 임베딩을 생성함으로써, 보다 깊이 있는 다중 모달 융합을 가능하게 한다. 더불어, 340만 개의 샘플을 포함하는 대규모 CIR 데이터셋인 다중 텍스트 CIR(Multi-Text CIR, MTCIR)를 제안하고, 기존의 CIR 벤치마크(CIRR 및 Fashion-IQ)를 개선하여 평가의 신뢰도를 높였다. 실험 결과, CoLLM은 다양한 CIR 벤치마크와 설정에서 최신 기술 수준(SOTA)의 성능을 달성하였다. MTCIR은 최대 15%의 성능 향상을 보였으며, 개선된 벤치마크는 CIR 모델에 대한 보다 신뢰할 수 있는 평가 지표를 제공함으로써 이 중요한 분야의 발전에 기여한다.