2달 전
텍스트 프롬프트 학습을 통한 복합 이미지 검색을 위한 양방향 훈련
Liu, Zheyuan ; Sun, Weixuan ; Hong, Yicong ; Teney, Damien ; Gould, Stephen

초록
조합 이미지 검색은 참조 이미지와 원하는 변경 사항을 설명하는 수정 텍스트로 구성된 다중 모달 사용자 쿼리를 기반으로 대상 이미지를 검색합니다. 이 어려운 작업을 해결하기 위한 기존 접근 방식들은 (참조 이미지, 수정 텍스트) 쌍에서 이미지 임베딩으로의 매핑을 학습하고, 이를 대규모 이미지 코퍼스와 매칭합니다. 아직 탐구되지 않은 영역 중 하나는 역방향입니다. 이는 주어진 대상 이미지를 생성하기 위해 텍스트가 설명한 대로 수정되었을 때 어떤 참조 이미지를 사용해야 하는지를 묻습니다. 본 연구에서는 이러한 역방향 쿼리를 활용하여 기존 조합 이미지 검색 아키텍처에 최소한의 변경만으로 적용할 수 있는 양방향 학습 방안을 제안합니다. 이로 인해 모델의 성능이 개선됩니다.양방향 쿼리를 인코딩하기 위해, 쿼리의 방향성을 지정하는 학습 가능한 토큰을 수정 텍스트 앞에 추가하고, 이후 텍스트 임베딩 모듈의 파라미터를 fine-tune합니다. 네트워크 아키텍처에는 다른 어떠한 변경도 가하지 않습니다. 두 가지 표준 데이터셋에서 수행한 실험 결과, 우리 제안 방법론은 자체적으로도 경쟁력 있는 성능을 보이는 BLIP 기반 베이스라인 모델보다 더 우수한 성능을 달성하였습니다. 우리의 코드는 https://github.com/Cuberick-Orion/Bi-Blip4CIR 에서 공개되었습니다.