2달 전

데이터 로밍과 조합 이미지 검색의 품질 평가

Levy, Matan ; Ben-Ari, Rami ; Darshan, Nir ; Lischinski, Dani
데이터 로밍과 조합 이미지 검색의 품질 평가
초록

Composed Image Retrieval(CoIR) 작업은 이미지와 텍스트 모달을 결합한 쿼리를 포함하여 사용자가 의도를 더 효과적으로 표현할 수 있도록 합니다. 그러나 현재의 CoIR 데이터셋들은 다른 시각 및 언어(V&L) 데이터셋들에 비해 몇 배나 작습니다. 또한 이러한 일부 데이터셋에는 불필요한 모달이 포함된 쿼리와 같은 눈에 띄는 문제점들이 있습니다. 이러한 단점을 해결하기 위해, 우리는 기존 데이터셋보다 10배 큰 새로운 CoIR 데이터셋인 Large Scale Composed Image Retrieval(LaSCo)를 소개합니다. LaSCo에서 사전 학습을 수행하면, 제로샷(zero-shot) 상황에서도 성능이 크게 향상되는 것을 확인할 수 있었습니다. 또한, 우리는 쿼리에서 모달의 중복성이나 필수성을 감지하는 새로운 CoIR 데이터셋과 방법론 분석 접근법을 제안합니다. 우리는 또한 Cross-Attention driven Shift Encoder(CASE)라는 새로운 CoIR 베이스라인을 소개합니다. 이 베이스라인은 크로스 어텐션 모듈을 사용하여 모달의 조기 융합(early fusion)을 가능하게 하며, 학습 과정에서 추가적인 보조 작업(auxiliary task)을 활용합니다. 실험 결과, 이 새로운 베이스라인이 FashionIQ 및 CIRR와 같은 기존 벤치마크에서 현재 최신 방법론(state-of-the-art methods)보다 우수한 성능을 보임을 입증하였습니다.

데이터 로밍과 조합 이미지 검색의 품질 평가 | 최신 연구 논문 | HyperAI초신경