리즌-바포-리트리브: 트레이닝 프리 제로샷 복합 이미지 검색을 위한 단계별 반사적 체인 오브 쓰로우트

조합 이미지 검색(Composed Image Retrieval, CIR)은 사용자가 지정한 텍스트 수정 사항을 반영하면서 참조 이미지와 유사한 목표 이미지를 검색하는 것을 목표로 하며, 사용자의 의도를 더 정확히 포착한다. 기존의 학습이 필요 없는 제로샷 CIR(ZS-CIR) 방법들은 일반적으로 두 단계의 프로세스를 사용한다. 먼저 참조 이미지에 대한 설명문(캡션)을 생성한 후, 대규모 언어 모델(Large Language Models)을 활용해 목표 설명을 도출하는 방식이다. 그러나 이러한 방법들은 핵심적인 시각적 세부 정보를 누락하고 추론 능력이 제한적이어서 최적의 검색 성능을 달성하지 못한다. 이러한 문제를 해결하기 위해 우리는 새로운 학습이 필요 없는 단일 단계 방법, 즉 제로샷 CIR을 위한 단일 단계 반사적 사고 체인 추론(One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR, OSrCIR)을 제안한다. 이 방법은 다중모달 대규모 언어 모델(Multimodal Large Language Models)을 활용하여 단일 단계 추론 과정에서 필수적인 시각 정보를 유지함으로써, 두 단계 방법에서 발생하는 정보 손실을 제거한다. 또한, 반사적 사고 체인(Reflective Chain-of-Thought) 프레임워크는 참조 이미지의 맥락적 단서와 수정 의도를 정렬함으로써 해석 정확도를 더욱 향상시킨다. OSrCIR는 다양한 작업에서 기존의 학습이 필요 없는 방법들보다 성능이 1.80%에서 6.44% 향상되었으며, ZS-CIR 분야에서 새로운 최고 성능 기록을 수립하고 시각-언어 응용 분야에서의 활용 가능성을 높였다. 본 연구의 코드는 https://github.com/Pter61/osrcir2024/ 에 공개될 예정이다.