VISTA: Visualisierte Text-Embedding für universelle multimodale Retrieval

Die multimodale Suche gewinnt zunehmend an Bedeutung in der Praxis. Allerdings sind die derzeit verfügbaren Retrieval-Modelle überwiegend textorientiert und verfügen nicht über die Fähigkeit, visuelle Informationen zu verarbeiten. Trotz der Existenz von vision-sprachlichen Modellen wie CLIP sind die aktuellen Ansätze erheblich eingeschränkt hinsichtlich der Darstellung von rein textbasierten und rein bildbasierten Daten. In dieser Arbeit präsentieren wir ein neues Embedding-Modell namens VISTA für die universelle multimodale Suche. Unsere Arbeit leistet drei wesentliche technische Beiträge. Erstens führen wir eine flexible Architektur ein, die einen leistungsfähigen Text-Encoder durch die Einführung visueller Token-Embeddings mit der Fähigkeit zur Bildverstehung erweitert. Zweitens entwickeln wir zwei Strategien zur Datengenerierung, die hochwertige, zusammengesetzte Bild-Text-Paare liefern, um das Training des Embedding-Modells zu unterstützen. Drittens stellen wir einen mehrstufigen Trainingsalgorithmus vor, der zunächst die visuellen Token-Embeddings mithilfe großer Mengen schwach beschrifteter Daten mit dem Text-Encoder ausrichtet und anschließend die multimodale Repräsentationsfähigkeit durch die Nutzung der generierten zusammengesetzten Bild-Text-Daten aufbaut. In unseren Experimenten erreicht VISTA überlegene Leistungen bei einer Vielzahl multimodaler Retrieval-Aufgaben sowohl im zero-shot- als auch im überwachten Szenario. Unser Modell, die Daten und der Quellcode sind unter https://github.com/FlagOpen/FlagEmbedding verfügbar.