HyperAIHyperAI

Command Palette

Search for a command to run...

VISTA: Visualisierte Text-Embedding für universelle multimodale Retrieval

Junjie Zhou Zheng Liu Shitao Xiao Bo Zhao Yongping Xiong

Zusammenfassung

Die multimodale Suche gewinnt zunehmend an Bedeutung in der Praxis. Allerdings sind die derzeit verfügbaren Retrieval-Modelle überwiegend textorientiert und verfügen nicht über die Fähigkeit, visuelle Informationen zu verarbeiten. Trotz der Existenz von vision-sprachlichen Modellen wie CLIP sind die aktuellen Ansätze erheblich eingeschränkt hinsichtlich der Darstellung von rein textbasierten und rein bildbasierten Daten. In dieser Arbeit präsentieren wir ein neues Embedding-Modell namens VISTA für die universelle multimodale Suche. Unsere Arbeit leistet drei wesentliche technische Beiträge. Erstens führen wir eine flexible Architektur ein, die einen leistungsfähigen Text-Encoder durch die Einführung visueller Token-Embeddings mit der Fähigkeit zur Bildverstehung erweitert. Zweitens entwickeln wir zwei Strategien zur Datengenerierung, die hochwertige, zusammengesetzte Bild-Text-Paare liefern, um das Training des Embedding-Modells zu unterstützen. Drittens stellen wir einen mehrstufigen Trainingsalgorithmus vor, der zunächst die visuellen Token-Embeddings mithilfe großer Mengen schwach beschrifteter Daten mit dem Text-Encoder ausrichtet und anschließend die multimodale Repräsentationsfähigkeit durch die Nutzung der generierten zusammengesetzten Bild-Text-Daten aufbaut. In unseren Experimenten erreicht VISTA überlegene Leistungen bei einer Vielzahl multimodaler Retrieval-Aufgaben sowohl im zero-shot- als auch im überwachten Szenario. Unser Modell, die Daten und der Quellcode sind unter https://github.com/FlagOpen/FlagEmbedding verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp