2달 전
Pic2Word: 그림을 단어로 매핑하여 제로샷 복합 이미지 검색 수행
Saito, Kuniaki ; Sohn, Kihyuk ; Zhang, Xiang ; Li, Chun-Liang ; Lee, Chen-Yu ; Saenko, Kate ; Pfister, Tomas

초록
조합 이미지 검색(CIR)에서 사용자는 쿼리 이미지를 텍스트와 결합하여 원하는 대상을 설명합니다. 기존 방법들은 쿼리 이미지, 텍스트 사양, 그리고 대상 이미지로 구성된 라벨된 트립렛을 사용하여 CIR 모델의 지도 학습에 의존하고 있습니다. 이러한 트립렛을 라벨링하는 것은 비용이 많이 들며, 이는 CIR의 광범위한 활용을 방해합니다. 본 연구에서는 중요한 과제인 제로샷 조합 이미지 검색(ZS-CIR)을 연구하기 위해 제안됩니다. ZS-CIR의 목표는 훈련을 위한 라벨된 트립렛이 필요하지 않은 CIR 모델을 구축하는 것입니다. 이를 위해 우리는 유일하게 약간 라벨링된 이미지-캡션 쌍과 라벨이 없는 이미지 데이터셋만으로 훈련할 수 있는 새로운 방법인 Pic2Word를 제안합니다. 기존의 지도 CIR 모델들과 달리, 우리의 모델은 약간 라벨링되거나 completely unlabeled(완전히 라벨이 없는) 데이터셋에서 훈련되었음에도 불구하고 다양한 ZS-CIR 작업에서 강력한 일반화 능력을 보입니다. 예를 들어, 속성 편집, 객체 조합, 도메인 변환 등이 있습니다. 우리의 접근법은 공통적인 CIR 벤치마크인 CIRR 및 Fashion-IQ에서 여러 지도 CIR 방법들을 능가합니다. 코드는 https://github.com/google-research/composed_image_retrieval 에 공개될 예정입니다.