17일 전

대조 학습과 작업 지향적 CLIP 기반 특징을 활용한 구성 이미지 검색

Alberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto del Bimbo
대조 학습과 작업 지향적 CLIP 기반 특징을 활용한 구성 이미지 검색
초록

참조 이미지와 상대적 설명문(상대적 캡션)으로 구성된 쿼리를 입력받아, 참조 이미지와 시각적으로 유사하면서도 설명문에서 표현된 수정 사항을 반영한 이미지를 검색하는 것을 '조합 이미지 검색(Composed Image Retrieval)'의 목표로 한다. 최근 연구들은 대규모 시각-언어 사전 학습(VLP, Vision and Language Pre-trained) 모델이 다양한 작업에서 뛰어난 성능을 보임을 입증하였으므로, 본 연구에서는 OpenAI의 CLIP 모델로부터 추출한 특징을 활용하여 이 문제를 해결한다. 먼저, 시각적 특징과 텍스트적 특징의 원소별 합( element-wise sum)을 사용하여 CLIP의 두 개의 인코더에 대해 작업 지향적 미세조정(task-oriented fine-tuning)을 수행한다. 이후 두 번째 단계에서는, 이중 모달 정보를 통합하여 결합된 특징을 생성하는 조합 네트워크(Combiner network)를 학습시킨다. 이 결합된 특징은 최종적인 이미지 검색을 수행하는 데 사용된다. 두 단계의 학습 과정에서 모두 대조 학습(contrastive learning)을 활용한다. 기존의 순수 CLIP 특징을 기준으로 하여, 실험 결과는 작업 지향적 미세조정과 신중하게 설계된 조합 네트워크가 매우 효과적이며, 패션 이미지 검색(FashionIQ)과 CIRR라는 조합 이미지 검색 분야에서 널리 사용되며 도전적인 두 개의 데이터셋에서 더 복잡한 최신 기법들보다 우수한 성능을 보임을 확인하였다. 코드 및 사전 학습된 모델은 https://github.com/ABaldrati/CLIP4Cir 에서 제공된다.

대조 학습과 작업 지향적 CLIP 기반 특징을 활용한 구성 이미지 검색 | 최신 연구 논문 | HyperAI초신경