Context-I2W: 이미지를 맥락에 따른 단어로 매핑하여 정확한 제로샷 합성 이미지 검색 수행

구성된 이미지 검색(composed image retrieval) 작업은 작업 특화 모델을 훈련시키기 위해 비싼 라벨이 필요하지만, 제로샷 구성된 이미지 검색(Zero-Shot Composed Image Retrieval, ZS-CIR)은 도메인, 장면, 객체, 속성 등과 관련된 다양한 시각적 콘텐츠 조작 의도를 포함하는 여러 작업에 관여합니다. ZS-CIR 작업의 주요 과제는 참조 이미지에 대한 다양한 조작 설명에 적응할 수 있는 더 정확한 이미지 표현을 학습하는 것입니다. 본 논문에서는 정확한 ZS-CIR를 위해 설명 관련 이미지 정보를 설명으로 구성된 가상 단어 토큰(pseudo-word token)으로 유연하게 변환하는 새로운 맥락 종속 매핑 네트워크인 Context-I2W를 제안합니다. 구체적으로, Intent View Selector는 동적으로 동일한 이미지를 작업 특화 조작 뷰로 매핑하기 위한 회전 규칙을 학습합니다. 그런 다음 Visual Target Extractor는 다수의 학습 가능한 쿼리의 안내 하에 ZS-CIR 작업에서 주요 대상을 포괄하는 지역 정보를 더욱 포착합니다. 이 두 보완적인 모듈은 추가적인 감독 없이 이미지를 맥락 종속 가상 단어 토큰으로 매핑하는데 협력합니다. 우리의 모델은 도메인 전환, 객체 구성, 객체 조작, 속성 조작을 포함한 네 가지 ZS-CIR 작업에서 강력한 일반화 능력을 보여주며, 최고의 방법들보다 1.88%에서 3.60% 사이의 일관되고 상당한 성능 향상을 달성하여 ZS-CIR에서 새로운 최신 결과(state-of-the-art results)를 얻었습니다. 우리의 코드는 https://github.com/Pter61/context-i2w에서 확인할 수 있습니다.