18일 전

LDRE: LLM 기반의 다원적 추론 및 앙상블을 통한 제로샷 복합 이미지 검색

{Changsheng Xu, WeiMing Dong, Shengsheng Qian, Dizhan Xue, Zhenyu Yang}
초록

최근 몇 년간, 제로샷 복합 이미지 검색(Zero-Shot Composed Image Retrieval, ZS-CIR)에 대한 관심이 점차 증가하고 있으며, 이는 학습 샘플 없이 참조 이미지와 수정 텍스트로 구성된 쿼리에 기반하여 목표 이미지를 검색하는 것을 목표로 한다. 구체적으로, 수정 텍스트는 두 이미지 간의 차이점을 설명한다. 기존의 ZS-CIR 방법들은 사전 훈련된 이미지-텍스트 모델을 활용하여 쿼리 이미지와 텍스트를 하나의 텍스트로 변환한 후, CLIP을 통해 이 텍스트를 공통 특징 공간으로 투영하여 목표 이미지를 검색한다. 그러나 이러한 접근 방식은 ZS-CIR이 본질적으로 모호한 검색 작업이라는 점을 간과하고 있다. 즉, 목표 이미지의 의미는 쿼리 이미지와 텍스트에 의해 엄격하게 정의되지 않는다. 이러한 한계를 극복하기 위해, 본 논문에서는 훈련 없이 사용 가능한 대규모 언어 모델(Large Language Model, LLM) 기반의 다각적 추론 및 통합(Divergent Reasoning and Ensemble, LDRE) 방법을 제안한다. 이는 복합 결과의 다양한 가능성을 포함하는 의미를 포착하는 데 목적이 있다. 먼저, 사전 훈련된 캡셔닝 모델을 사용하여 참조 이미지에 대해 다양한 의미적 관점에서 밀도 높은 캡셔닝을 생성한다. 그 후, 대규모 언어 모델(LLM)을 활용하여 밀도 높은 캡셔닝과 수정 텍스트를 기반으로 다각적인 복합적 추론을 수행하여, 복합된 목표 이미지의 가능한 의미를 포괄하는 다양한 편집 캡셔닝을 도출한다. 마지막으로, 의미적 관련성 점수에 따라 가중치를 부여한 다각적 캡셔닝 통합 기법을 설계하여 통합 캡셔닝 특징을 생성하고, 이를 CLIP 특징 공간에서 목표 이미지를 검색하는 데 활용한다. 공개된 세 가지 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 LDRE 방법이 새로운 최고 성능(SOTA)을 달성함을 확인하였다.