2달 전

CompoDiff: 잠재 확산을 활용한 다목적 합성 이미지 검색

Gu, Geonmo ; Chun, Sanghyuk ; Kim, Wonjae ; Jun, HeeJae ; Kang, Yoohoon ; Yun, Sangdoo
CompoDiff: 잠재 확산을 활용한 다목적 합성 이미지 검색
초록

본 논문은 잠재 확산을 기반으로 하는 새로운 모델인 CompoDiff를 제안하여 zero-shot Composed Image Retrieval (ZS-CIR) 문제를 해결하고자 합니다. 또한, 1,880만 개의 참조 이미지, 조건, 및 대응하는 목표 이미지 트리플렛을 포함하는 새로운 합성 데이터셋인 SynthTriplets18M을 소개합니다. 이 데이터셋은 CIR 모델들을 훈련시키는 데 사용됩니다. CompoDiff와 SynthTriplets18M은 이전 CIR 접근 방식들의 단점을 극복하는데 주력합니다. 이러한 단점에는 소규모 데이터셋으로 인한 일반화 능력 부족과 제한된 조건 유형이 포함됩니다. CompoDiff는 FashionIQ, CIRR, CIRCO, GeneCIS 등 네 가지 ZS-CIR 벤치마크에서 새로운 최고 수준의 성능을 달성하였을 뿐 아니라, 부정적인 텍스트와 이미지 마스크 조건 등 다양한 조건을 받아들여 더욱 다양하고 제어 가능한 CIR를 가능하게 합니다. 또한, CompoDiff는 텍스트와 이미지 쿼리 사이의 조건 강도 제어 가능성과 추론 속도와 성능 간의 균형 조절 가능성을 보여주는데, 이는 기존 CIR 방법에서는 제공되지 않는 특징입니다. 코드와 데이터셋은 https://github.com/navervision/CompoDiff에서 이용할 수 있습니다.

CompoDiff: 잠재 확산을 활용한 다목적 합성 이미지 검색 | 최신 연구 논문 | HyperAI초신경