vor 17 Tagen

VISTA: Visualisierte Text-Embedding für universelle multimodale Retrieval

Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong

Abstract

Die multimodale Suche gewinnt zunehmend an Bedeutung in der Praxis. Allerdings sind die derzeit verfügbaren Retrieval-Modelle überwiegend textorientiert und verfügen nicht über die Fähigkeit, visuelle Informationen zu verarbeiten. Trotz der Existenz von vision-sprachlichen Modellen wie CLIP sind die aktuellen Ansätze erheblich eingeschränkt hinsichtlich der Darstellung von rein textbasierten und rein bildbasierten Daten. In dieser Arbeit präsentieren wir ein neues Embedding-Modell namens VISTA für die universelle multimodale Suche. Unsere Arbeit leistet drei wesentliche technische Beiträge. Erstens führen wir eine flexible Architektur ein, die einen leistungsfähigen Text-Encoder durch die Einführung visueller Token-Embeddings mit der Fähigkeit zur Bildverstehung erweitert. Zweitens entwickeln wir zwei Strategien zur Datengenerierung, die hochwertige, zusammengesetzte Bild-Text-Paare liefern, um das Training des Embedding-Modells zu unterstützen. Drittens stellen wir einen mehrstufigen Trainingsalgorithmus vor, der zunächst die visuellen Token-Embeddings mithilfe großer Mengen schwach beschrifteter Daten mit dem Text-Encoder ausrichtet und anschließend die multimodale Repräsentationsfähigkeit durch die Nutzung der generierten zusammengesetzten Bild-Text-Daten aufbaut. In unseren Experimenten erreicht VISTA überlegene Leistungen bei einer Vielzahl multimodaler Retrieval-Aufgaben sowohl im zero-shot- als auch im überwachten Szenario. Unser Modell, die Daten und der Quellcode sind unter https://github.com/FlagOpen/FlagEmbedding verfügbar.