2달 전

사전 학습을 추론처럼: 마스크 튜닝이 제로샷 복합 이미지 검색을 개선합니다

Junyang Chen; Hanjiang Lai
사전 학습을 추론처럼: 마스크 튜닝이 제로샷 복합 이미지 검색을 개선합니다
초록

제로샷 구성 이미지 검색(ZS-CIR)은 텍스트 수정과 참조 이미지를 쿼리로 사용하여 트립렛 라벨링 없이 대상 이미지를 검색하는 기술로, 데이터 마이닝 분야에서 점점 더 주목받고 있습니다. 현재 ZS-CIR 연구는 주로 CLIP 등의 사전 학습된 시각-언어 모델의 일반화 능력에 의존하고 있습니다. 그러나 사전 학습된 시각-언어 모델과 CIR 작업 간에는 상당한 차이가 존재합니다. 시각-언어 모델은 유사성을 학습하는 데 초점을 맞추지만, CIR은 텍스트에 의해 안내되는 이미지의 수정을 학습하는 것을 목표로 합니다.본 논문에서는 이러한 차이를 줄이는 새로운 비라벨 및 사전 학습된 마스킹 조정 접근법을 소개합니다. 먼저, 차이를 줄이기 위해 시각-언어 모델의 대조학습을 CIR 작업으로 재구성합니다. 여기서 우리는 입력 이미지 패치를 무작위로 마스킹하여 이미지-텍스트 쌍에서 $\langle$마스킹된 이미지, 텍스트, 이미지$\rangle$ 트립렛을 생성합니다. 그런 다음, 원래 이미지의 수정을 학습하기 위해 텍스트와 마스킹된 이미지를 사용하는 간단하지만 혁신적인 사전 학습된 마스킹 조정 방법을 제안합니다. 이러한 간단한 설계 덕분에 제안된 마스킹 조정은 세부적인 텍스트 안내 수정을 더 잘 포착하도록 학습할 수 있습니다.다양한 실험 결과는 본 접근법이 FashionIQ, CIRR, CIRCO, GeneCIS 등 네 개의 ZS-CIR 데이터셋에서 기준 모델들보다 크게 우수함을 입증하였습니다. 우리의 코드는 https://github.com/Chen-Junyang-cn/PLI 에서 확인할 수 있습니다.