VisualSparta: Ein peinlich einfacher Ansatz für die large-scale Text-to-Image-Suche mit gewichteten Bag-of-Words

Die Text-zu-Bild-Retrieval ist eine wesentliche Aufgabe im Bereich der multimodalen Informationsretrieval, das heißt, die Relevanz von Bildern aus einem großen und nicht annotierten Datensatz auf Grundlage textbasierter Abfragen zu ermitteln. In dieser Arbeit stellen wir VisualSparta vor, ein neues Modell (Visual-Text Sparse Transformer Matching), das sowohl in Bezug auf Genauigkeit als auch Effizienz erhebliche Verbesserungen zeigt. VisualSparta übertrifft die bisherigen skalierbaren Methoden des Standes der Technik bei den Benchmarks MSCOCO und Flickr30K. Darüber hinaus demonstrieren wir, dass es erhebliche Vorteile in Bezug auf die Suchgeschwindigkeit bietet: Bei einem Index mit einer Million Bildern erreicht VisualSparta bei Verwendung eines CPUs eine Geschwindigkeitsverbesserung von etwa 391-fach im Vergleich zur CPU-Vektorsuche und von etwa 5,4-fach im Vergleich zur Vektorsuche mit GPU-Beschleunigung. Experimente zeigen, dass dieser Geschwindigkeitsvorteil bei größeren Datensätzen noch größer wird, da VisualSparta effizient als invertierter Index implementiert werden kann. Nach bestem Wissen ist VisualSparta das erste transformer-basierte Text-zu-Bild-Retrieval-Modell, das für große Datensätze Echtzeitsuche ermöglicht und dabei eine signifikante Genauigkeitssteigerung gegenüber den bisherigen Methoden des Standes der Technik aufweist.