2달 전
실생활 이미지에서 사전 학습된 시각-언어 모델을 이용한 이미지 검색
Liu, Zheyuan ; Rodriguez-Opazo, Cristian ; Teney, Damien ; Gould, Stephen

초록
우리는 합성 이미지 검색 작업을 확장합니다. 이 작업에서 입력 쿼리는 이미지와 그 이미지를 어떻게 수정할지를 설명하는 짧은 텍스트로 구성됩니다. 기존 방법들은 패션 제품과 같은 좁은 영역 내의 비복잡한 이미지에만 적용되어, 풍부한 이미지와 언어 컨텍스트에서 심층적인 시각적 추론에 대한 연구 범위가 제한되었습니다. 이러한 문제를 해결하기 위해, 우리는 36,000개 이상의 크라우드 소싱된 오픈 도메인 이미지와 인간이 생성한 수정 텍스트 쌍으로 구성된 '실제 이미지 합성 검색 (CIRR)' 데이터셋을 수집하였습니다.현재의 방법들을 오픈 도메인으로 확장하기 위해, 우리는 CIRPLANT라는 변환기(Transformer) 기반 모델을 제안합니다. 이 모델은 자연어 조건부로 시각적 특성을 수정하기 위해 풍부하게 사전 학습된 시각-언어(V&L) 지식을 활용합니다. 이후 수정된 특성을 사용하여 최근접 이웃 탐색을 통해 검색이 이루어집니다. 우리는 비교적 간단한 아키텍처를 통해 CIRPLANT가 오픈 도메인 이미지에서 기존 방법들을 능가하며, 패션과 같은 기존의 좁은 데이터셋에서도 최신 수준의 정확도를 유지함을 보여주었습니다.CIRR 데이터셋의 공개와 함께, 우리는 이 연구가 합성 이미지 검색 분야에서 더 많은 연구를 유발할 것이라고 믿습니다.