HyperAIHyperAI

Command Palette

Search for a command to run...

VisualSparta: Ein peinlich einfacher Ansatz für die large-scale Text-to-Image-Suche mit gewichteten Bag-of-Words

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee

Zusammenfassung

Die Text-zu-Bild-Retrieval ist eine wesentliche Aufgabe im Bereich der multimodalen Informationsretrieval, das heißt, die Relevanz von Bildern aus einem großen und nicht annotierten Datensatz auf Grundlage textbasierter Abfragen zu ermitteln. In dieser Arbeit stellen wir VisualSparta vor, ein neues Modell (Visual-Text Sparse Transformer Matching), das sowohl in Bezug auf Genauigkeit als auch Effizienz erhebliche Verbesserungen zeigt. VisualSparta übertrifft die bisherigen skalierbaren Methoden des Standes der Technik bei den Benchmarks MSCOCO und Flickr30K. Darüber hinaus demonstrieren wir, dass es erhebliche Vorteile in Bezug auf die Suchgeschwindigkeit bietet: Bei einem Index mit einer Million Bildern erreicht VisualSparta bei Verwendung eines CPUs eine Geschwindigkeitsverbesserung von etwa 391-fach im Vergleich zur CPU-Vektorsuche und von etwa 5,4-fach im Vergleich zur Vektorsuche mit GPU-Beschleunigung. Experimente zeigen, dass dieser Geschwindigkeitsvorteil bei größeren Datensätzen noch größer wird, da VisualSparta effizient als invertierter Index implementiert werden kann. Nach bestem Wissen ist VisualSparta das erste transformer-basierte Text-zu-Bild-Retrieval-Modell, das für große Datensätze Echtzeitsuche ermöglicht und dabei eine signifikante Genauigkeitssteigerung gegenüber den bisherigen Methoden des Standes der Technik aufweist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp