HyperAIHyperAI

Command Palette

Search for a command to run...

X2^22-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

Zusammenfassung

Vision-Sprache-Vortrainierung zielt darauf ab, Alignments zwischen Vision und Sprache aus einer großen Menge an Daten zu lernen. Die meisten bestehenden Methoden erlernen lediglich Bild-Text-Alignments. Andere nutzen vortrainierte Objektdetektoren, um Vision-Sprache-Alignments auf Objektebene zu nutzen. In diesem Paper schlagen wir vor, mehrschalige Vision-Sprache-Alignments durch einen einheitlichen Vortrainierungsrahmen zu lernen, der gleichzeitig mehrschalige Ausrichtung und mehrschalige Lokalisierung erlernt. Auf dieser Grundlage präsentieren wir X2^22-VLM, ein all-in-one-Modell mit einer flexiblen modularen Architektur, bei dem wir zudem die Bild-Text-Vortrainierung und Video-Text-Vortrainierung in einem einzigen Modell vereinheitlichen. X2^22-VLM ist in der Lage, unbegrenzte visuelle Konzepte zu lernen, die mit vielfältigen Textbeschreibungen assoziiert sind. Experimentelle Ergebnisse zeigen, dass X2^22-VLM sowohl bei Basis- als auch bei großskaligen Aufgaben für Bild-Text- und Video-Text-Aufgaben die besten Leistungen erzielt und dabei ein gutes Gleichgewicht zwischen Leistungsfähigkeit und Modellgröße erreicht. Darüber hinaus zeigen wir, dass die modulare Architektur von X2^22-VLM eine hohe Übertragbarkeit ermöglicht, sodass das Modell in beliebigen Sprachen oder Domänen eingesetzt werden kann. Beispielsweise übertrifft X2^22-VLM state-of-the-art multilinguale multimodale Vortrainierungsmodelle, ohne dass eine multilinguale Vortrainierung durchgeführt wurde, indem lediglich der Textencoder durch XLM-R ersetzt wird. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/zengyan-97/X2-VLM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
X$^2$-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache | Paper | HyperAI