2달 전

VisualSparta: 가중치 부여된 단어의 가방 모델을 이용한 대규모 텍스트-이미지 검색의 매우 간단한 접근법

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee
VisualSparta: 가중치 부여된 단어의 가방 모델을 이용한 대규모 텍스트-이미지 검색의 매우 간단한 접근법
초록

텍스트-이미지 검색은 크로스-모달 정보 검색의 핵심적인 작업으로, 주어진 텍스트 쿼리에 따라 대규모 비라벨 데이터셋에서 관련 이미지를 검색하는 것을 의미합니다. 본 논문에서는 정확성과 효율성 면에서 상당한 개선을 보이는 새로운 모델인 VisualSparta(비주얼-텍스트 스파스 트랜스포머 매칭)를 제안합니다. VisualSparta는 MSCOCO와 Flickr30K에서 이전의 최신 스케일러블 방법들을 능가할 수 있는 능력을 보입니다. 또한, 100만 장의 이미지 인덱스에 대해 VisualSparta는 CPU 벡터 검색보다 약 391배, GPU 가속 벡터 검색보다 약 5.4배 빠른 검색 속도를 제공함을 보여줍니다. 실험 결과, VisualSparta는 역방향 인덱스로 효율적으로 구현될 수 있으므로 더 큰 데이터셋에서도 이 속도 우위가 더욱 커짐을 확인할 수 있었습니다. 현재까지 알려진 바에 따르면, VisualSparta는 대규모 데이터셋에서 실시간 검색을 달성할 수 있는 첫 번째 트랜스포머 기반 텍스트-이미지 검색 모델이며, 이전의 최신 방법들에 비해 상당한 정확도 향상을 보입니다.

VisualSparta: 가중치 부여된 단어의 가방 모델을 이용한 대규모 텍스트-이미지 검색의 매우 간단한 접근법 | 최신 연구 논문 | HyperAI초신경