CaLa: 구성 이미지 검색 강화를 위한 보완적 연관 학습

조합 이미지 검색(Composed Image Retrieval, CIR)은 이미지-텍스트 쌍 쿼리에 기반하여 대상 이미지를 검색하는 과정을 의미한다. 기존의 방법들은 이 문제를 쿼리-타겟 매칭 문제로 간주하지만, 본 연구에서는 CIR 트리플릿 내부에 이러한 주된 관계 외에도 추가적인 상관관계가 존재한다고 주장한다. 본 논문에서는 트리플릿을 그래프 노드로 간주하면서, 트리플릿 내부에 존재하는 두 가지 새로운 관계를 식별한다. 첫째, 쿼리 텍스트가 쿼리 이미지와 타겟 이미지 사이를 연결하는 다리 역할을 하는 ‘텍스트를 통한 이미지 정렬(Text-bridged Image Alignment)’ 개념을 제안한다. 이를 네트워크 학습에 통합하기 위해 허지 기반의 크로스 어텐션 메커니즘을 제안한다. 둘째, 보완적 텍스트 추론(Complementary Text Reasoning)을 탐구하며, CIR을 두 이미지가 결합되어 보완적인 텍스트를 추론하는 다모달 검색의 형태로 간주한다. 이러한 관점을 효과적으로 통합하기 위해 이중 어텐션 기반의 조합기(twin attention-based compositor)를 설계하였다. 이러한 보완적 관계를 명시적인 쿼리 쌍-타겟 이미지 관계와 결합함으로써, CIR에 대한 포괄적인 제약 조건을 수립한다. 본 연구의 프레임워크인 CaLa(Complementary Association Learning for Augmenting Composed Image Retrieval)는 이러한 통찰을 활용한다. 다양한 백본을 사용하여 CIRR 및 FashionIQ 벤치마크에서 CaLa를 평가한 결과, 조합 이미지 검색에서 우수한 성능을 입증하였다.