HyperAIHyperAI
il y a 2 mois

VisualSparta : Une Approche Simplement Gênante pour la Recherche d'Images à Grande Échelle à Partir du Texte avec un Sac de Mots Pondéré

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee
VisualSparta : Une Approche Simplement Gênante pour la Recherche d'Images à Grande Échelle à Partir du Texte avec un Sac de Mots Pondéré
Résumé

La recherche d'images à partir de texte est une tâche essentielle dans la récupération d'informations multimodales, c'est-à-dire la récupération d'images pertinentes à partir d'un grand ensemble de données non étiquetées en utilisant des requêtes textuelles. Dans cet article, nous proposons VisualSparta, un nouveau modèle (Visual-text Sparse Transformer Matching) qui montre des améliorations significatives en termes de précision et d'efficacité. VisualSparta est capable de surpasser les méthodes précédentes les plus performantes et évolutives sur les jeux de données MSCOCO et Flickr30K. Nous montrons également qu'il offre des avantages considérables en termes de vitesse de recherche, soit pour un index d'1 million d'images, VisualSparta utilisant un processeur CPU obtient une accélération d'environ 391 fois par rapport à la recherche vectorielle CPU et environ 5,4 fois par rapport à la recherche vectorielle avec accélération GPU. Les expériences démontrent que cet avantage en termes de vitesse s'accroît encore pour des ensembles de données plus importants, car VisualSparta peut être mis en œuvre efficacement sous forme d'index inversé. Selon nos connaissances, VisualSparta est le premier modèle de recherche d'images à partir de texte basé sur les transformateurs capable de recherches en temps réel pour des ensembles de données à grande échelle, avec une amélioration notable de la précision par rapport aux méthodes précédentes les plus performantes.

VisualSparta : Une Approche Simplement Gênante pour la Recherche d'Images à Grande Échelle à Partir du Texte avec un Sac de Mots Pondéré | Articles de recherche récents | HyperAI