4달 전

상상하고 탐색하기: 상상된 프록시를 활용한 합성 이미지 검색 개선

You Li; Fan Ma; Yi Yang
상상하고 탐색하기: 상상된 프록시를 활용한 합성 이미지 검색 개선
초록

제로샷 복합 이미지 검색(Zero-shot Composed Image Retrieval, ZSCIR)은 쿼리 이미지와 관련된 캡션에 맞는 이미지를 검색하는 것을 필요로 합니다. 현재의 방법들은 주로 쿼리 이미지를 텍스트 특성 공간으로 투영한 후, 이를 쿼리 텍스트의 특성과 결합하여 검색하는 데 초점을 맞추고 있습니다. 그러나 텍스트 특성만을 사용하여 이미지를 검색하는 것은 이미지와 텍스트 사이의 자연스러운 간극 때문에 세부적인 일치를 보장할 수 없습니다. 본 논문에서는 IP-CIR(Imagined Proxy for CIR)라는 학습이 필요하지 않은 방법을 소개합니다. 이 방법은 쿼리 이미지와 텍스트 설명에 맞는 프록시 이미지를 생성하여, 검색 과정에서 쿼리 표현을 강화합니다.우리는 먼저 대형 언어 모델(Large Language Model)의 일반화 능력을 활용하여 이미지 레이아웃을 생성하고, 그 다음에는 쿼리 텍스트와 이미지를 조건부 생성에 사용합니다. 견고한 쿼리 특성은 프록시 이미지, 쿼리 이미지, 그리고 텍스트 의미 변동(text semantic perturbation)을 통합함으로써 강화됩니다. 우리가 새로 제안한 균형 지표는 텍스트 기반 및 프록시 검색 유사성을 통합하여, 타겟 이미지를 더 정확하게 검색하면서 동시에 이미지 정보를 과정에 통합할 수 있게 합니다.세 개의 공개 데이터셋에서 수행한 실험 결과, 우리의 방법이 검색 성능을 크게 개선한다는 것을 입증했습니다. CIRR 데이터셋에서 Recall@K 70.07(K=10)를 달성하며 최신 기술(state-of-the-art, SOTA) 결과를 얻었습니다. 또한 FashionIQ 데이터셋에서 Recall@10 성능이 45.11에서 45.74로 개선되었으며, CIRCO에서는 mAPK@10 점수가 32.24에서 34.26으로 상승하여 베이스라인 성능을 개선했습니다.