2달 전

조건부 및 구성형 이미지 검색: CLIP 기반 특징의 결합 및 부분적 미세조정

{Alberto del Bimbo, Tiberio Uricchio, Marco Bertini, Alberto Baldrati}

초록

본 논문에서는 CLIP 특징을 기반으로 한 조건부 및 조합형 이미지 검색을 위한 접근법을 제안한다. 이는 콘텐츠 기반 이미지 검색(CBIR)의 확장 형태로, 사용자의 의도에 대한 정보를 제공하고 전자상거래와 같은 응용 분야에서 중요한 텍스트와 이미지를 결합한다. 제안하는 방법은 초기 학습 단계에서 시각적 특징과 텍스트 특징을 단순하게 결합하여 CLIP 텍스트 인코더를 미세 조정하는 것으로 시작한다. 이후 두 번째 학습 단계에서는 시각적 특징과 텍스트 특징을 더 복잡하게 통합하는 보다 고도화된 컴바이너 네트워크를 학습한다. 두 단계 모두 대조 학습(contrastive learning)이 사용된다. 제안된 방법은 FashionIQ 데이터셋에서 조건부 CBIR 및 최신의 CIRR 데이터셋에서 조합형 CBIR에 대해 최신 기술 수준(SOTA)의 성능을 달성한다.