18일 전
효율적인 조건부 및 복합 이미지 검색: CLIP 기반 특징의 통합
{Alberto del Bimbo, Tiberio Uricchio, Marco Bertini, Alberto Baldrati}

초록
조건부 및 조합형 이미지 검색은 사용자의 의도를 표현하는 추가 텍스트와 쿼리 이미지를 결합함으로써 기존의 CBIR(컨텐츠 기반 이미지 검색) 시스템을 확장한다. 이는 쿼리 이미지의 시각적 콘텐츠에 대한 추가적인 요청을 설명하는 데 유용하며, 전자상거래 분야에서 특히 관심을 끌고 있다. 예를 들어, 상호작용형 다중모달 검색 및 챗봇 개발에 활용될 수 있다. 본 데모에서는 대조학습(contrastive learning)을 통해 훈련된 조합 네트워크 기반의 인터랙티브 시스템을 소개한다. 이 시스템은 OpenAI의 CLIP 네트워크로부터 추출한 시각적 및 텍스트적 특징을 결합하여 조건부 CBIR 문제를 해결한다. 해당 시스템은 전자상거래 쇼핑몰의 검색 엔진 개선에 활용될 수 있다. 예를 들어 패션 분야에서는 사용자가 시작 이미지(예: 드레스, 셔츠, 티셔츠 등)를 제시하고, 해당 이미지의 시각적 특성과 비교해 색상, 무늬, 형태 등의 변화를 요청하는 방식으로 검색이 가능하다. 제안된 네트워크는 FashionIQ 데이터셋과 최신의 CIRR 데이터셋에서 최신 기술 수준의 성능을 달성하며, 조건부 검색에 대한 패션 분야 적용 가능성뿐 아니라, 더 일반적인 콘텐츠에 대한 조합형 이미지 검색이라는 보다 포괄적인 과제에서도 뛰어난 적용성을 보여준다.