17일 전
ARTEMIS: 텍스트 명시적 매칭과 은닉 유사성 기반의 주의 기반 검색
Ginger Delmas, Rafael Sampaio de Rezende, Gabriela Csurka, Diane Larlus

초록
이미지를 검색하는 직관적인 방법 중 하나는 예시 이미지와 보완적인 텍스트로 구성된 쿼리를 사용하는 것이다. 여기서 첫 번째 요소인 예시 이미지는 검색에 필요한 풍부하고 암묵적인 맥락을 제공하며, 두 번째 요소인 텍스트는 새로운 특성의 명시적 요청이나 예시 이미지의 일부 요소를 어떻게 변경해야 할지를 구체적으로 지시한다. 기존의 접근 방식은 쿼리의 두 요소 각각의 특징을 하나의 표현으로 통합한 후, 이를 후보 타깃 이미지의 표현과 비교하는 방식을 채택한다. 본 연구는 텍스트-to-이미지 및 이미지-to-이미지 검색이라는 두 가지 익숙하고 관련성이 높은 프레임워크를 통해 이 작업을 새롭게 조명하고자 한다. 이러한 프레임워크에서 영감을 얻어, 쿼리의 각 요소가 타깃 이미지와 가지는 특별한 관계를 활용하여, 두 보완적인 모달리티 사이를 효과적으로 매개할 수 있는 경량화된 어텐션 메커니즘을 설계하였다. 제안한 방법은 다양한 검색 벤치마크에서 예시 이미지와 자유형 텍스트 수정자(모디파이어)를 활용한 쿼리로 검증되었으며, 이전 연구들처럼 보조 정보, 다수준 특징, 무거운 사전 학습, 또는 대규모 아키텍처를 사용하지 않고도 최신 기술 수준의 성능을 달성하였다.