ImageScope: 대규모 다중모달 모델 집단 추론을 통한 언어 지도 이미지 검색 통합

온라인 콘텐츠에서 이미지의 급속한 증가에 따라, 지난 10년간 언어 지도형 이미지 검색(LGIR, language-guided image retrieval)은 연구의 주요 초점으로 부상하였으며, 다양한 입력 형태를 가진 다수의 하위 작업을 포함한다. 대규모 다중모달 모델(LMM, large multimodal models)의 발전은 이러한 작업들을 크게 촉진하였지만, 기존의 접근 방식은 일반적으로 각 작업을 별도로 다루며, 각 작업에 대해 별도의 시스템을 구축해야 하는 문제가 있다. 이는 시스템의 복잡성과 유지보수 비용을 증가시킬 뿐만 아니라, 언어의 모호성과 복잡한 이미지 콘텐츠로 인한 도전 과제를 악화시켜 검색 시스템이 정확하고 신뢰할 수 있는 결과를 제공하는 데 어려움을 겪게 한다. 이러한 문제를 해결하기 위해 우리는 훈련이 필요 없는 세 단계 프레임워크인 ImageScope를 제안한다. 이 프레임워크는 집합적 추론을 활용하여 LGIR 작업들을 통합한다. 통합의 핵심 통찰은 언어의 조합적 성질에 기반하며, 이는 다양한 LGIR 작업을 일반화된 텍스트-이미지 검색 프로세스로 변환하고, LMM의 추론을 보편적인 검증 수단으로 활용하여 결과를 정교화하는 데 기여한다. 구체적으로, 첫 번째 단계에서는 사고의 사슬(CoT, chain-of-thought) 추론을 활용하여 다양한 의미적 세부성 수준에서 검색 의도를 합성함으로써 프레임워크의 강건성을 향상시킨다. 두 번째 및 세 번째 단계에서는 지역적으로 술어 명제를 검증하고, 전역적으로 쌍별 평가를 수행함으로써 검색 결과를 반성한다. 여섯 개의 LGIR 데이터셋을 대상으로 수행한 실험 결과, ImageScope는 경쟁적인 기준 모델들을 능가함을 확인하였다. 포괄적인 평가 및 제거 실험(Ablation study)을 통해 제안한 설계의 효과성이 추가로 입증되었다.