17일 전

STIR: 이미지 검색 후처리를 위한 시아모이즈 트랜스포머

Aleksei Shabanov, Aleksei Tarasov, Sergey Nikolenko
STIR: 이미지 검색 후처리를 위한 시아모이즈 트랜스포머
초록

이미지 검색을 위한 현재의 메트릭 학습 접근 방식은 일반적으로 정보량이 풍부한 잠재 표현 공간을 학습하는 데 기반을 두며, 코사인 거리와 같은 간단한 방법이 효과적으로 작동할 수 있는 환경을 제공한다. 최근의 최신 기술인 HypViT는 더 복잡한 임베딩 공간으로 전환하면서 더 나은 성능을 달성할 수 있지만, 실사용 환경에 확장하기에는 어려움이 있다. 본 연구에서는 먼저 하드 네거티브 마이닝을 활용한 트리플릿 손실 기반의 간단한 모델을 제안하며, 이는 최신 기술 수준의 성능을 달성하지만 위의 단점들을 갖지 않는다. 두 번째로, 이미지 검색 후처리를 위한 새로운 접근 방식인 Siamese Transformer for Image Retrieval (STIR)을 도입한다. STIR은 단일 전방 전파(foward pass) 내에서 여러 상위 출력을 재정렬할 수 있도록 설계되었다. 기존에 제안된 재정렬 트랜스포머와 달리, STIR은 전역/국소 특징 추출에 의존하지 않고, 어텐션 메커니즘을 활용하여 쿼리 이미지와 검색된 후보 이미지를 픽셀 단위에서 직접 비교한다. 제안된 방법은 표준 이미지 검색 데이터셋인 Stanford Online Products와 DeepFashion In-shop에서 새로운 최신 기술 수준을 정의한다. 또한, 소스 코드는 https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/ 에 공개되었으며, 본 연구의 접근 방식을 체험할 수 있는 인터랙티브 데모는 https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/ 에서 이용 가능하다.

STIR: 이미지 검색 후처리를 위한 시아모이즈 트랜스포머 | 최신 연구 논문 | HyperAI초신경