4달 전

Zero-shot Composed Text-Image Retrieval 제로샷 조합형 텍스트-이미지 검색

Yikun Liu; Jiangchao Yao; Ya Zhang; Yanfeng Wang; Weidi Xie
Zero-shot Composed Text-Image Retrieval
제로샷 조합형 텍스트-이미지 검색
초록

본 논문에서는 복합 이미지 검색(Composed Image Retrieval, CIR) 문제를 다룹니다. 이는 텍스트와 이미지 등의 다중 모달 정보를 융합하여 쿼리에 정확히 일치하는 이미지를 검색할 수 있는 모델을 학습하는 것을 목표로 하며, 사용자의 표현 능력을 확장합니다. 다음과 같은 기여를 하였습니다: (i) LAION-5B의 부분 집합과 같은 대규모 이미지-텍스트 쌍 데이터셋을 활용하여 CIR 모델 학습용 데이터셋을 자동으로 구축하는 확장 가능한 파이프라인을 제안하였습니다; (ii) 다양한 모달에서 정보를 적응적으로 결합하는 간단하면서도 효율적인 융합 메커니즘을 사용하는 트랜스포머 기반 적응적 집계 모델인 TransAgg를 소개하였습니다; (iii) 제안된 데이터 구축 절차의 유용성과 TransAgg의 핵심 구성 요소들의 효과성을 조사하기 위해 광범위한 아블레이션 연구를 수행하였습니다; (iv) 자동으로 구축된 데이터셋에서 학습한 후, CIRR 및 FashionIQ와 같은 대상 다운스트림 데이터셋에서 직접 추론을 수행하는 영상 사례(zero-shot scenario)에서 공개된 벤치마크를 평가한 결과, 제안된 접근 방식은 기존 최신(SOTA) 모델들과 비슷하거나 크게 우수한 성능을 보였습니다. 프로젝트 페이지: https://code-kunkun.github.io/ZS-CIR/