2달 전

텍스트 프롬프트 학습을 통한 복합 이미지 검색을 위한 양방향 훈련

Liu, Zheyuan ; Sun, Weixuan ; Hong, Yicong ; Teney, Damien ; Gould, Stephen
텍스트 프롬프트 학습을 통한 복합 이미지 검색을 위한 양방향 훈련
초록

조합 이미지 검색은 참조 이미지와 원하는 변경 사항을 설명하는 수정 텍스트로 구성된 다중 모달 사용자 쿼리를 기반으로 대상 이미지를 검색합니다. 이 어려운 작업을 해결하기 위한 기존 접근 방식들은 (참조 이미지, 수정 텍스트) 쌍에서 이미지 임베딩으로의 매핑을 학습하고, 이를 대규모 이미지 코퍼스와 매칭합니다. 아직 탐구되지 않은 영역 중 하나는 역방향입니다. 이는 주어진 대상 이미지를 생성하기 위해 텍스트가 설명한 대로 수정되었을 때 어떤 참조 이미지를 사용해야 하는지를 묻습니다. 본 연구에서는 이러한 역방향 쿼리를 활용하여 기존 조합 이미지 검색 아키텍처에 최소한의 변경만으로 적용할 수 있는 양방향 학습 방안을 제안합니다. 이로 인해 모델의 성능이 개선됩니다.양방향 쿼리를 인코딩하기 위해, 쿼리의 방향성을 지정하는 학습 가능한 토큰을 수정 텍스트 앞에 추가하고, 이후 텍스트 임베딩 모듈의 파라미터를 fine-tune합니다. 네트워크 아키텍처에는 다른 어떠한 변경도 가하지 않습니다. 두 가지 표준 데이터셋에서 수행한 실험 결과, 우리 제안 방법론은 자체적으로도 경쟁력 있는 성능을 보이는 BLIP 기반 베이스라인 모델보다 더 우수한 성능을 달성하였습니다. 우리의 코드는 https://github.com/Cuberick-Orion/Bi-Blip4CIR 에서 공개되었습니다.