HyperAIHyperAI
vor 16 Tagen

X$^2$-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache

Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou
X$^2$-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache
Abstract

Vision-Sprache-Vortrainierung zielt darauf ab, Alignments zwischen Vision und Sprache aus einer großen Menge an Daten zu lernen. Die meisten bestehenden Methoden erlernen lediglich Bild-Text-Alignments. Andere nutzen vortrainierte Objektdetektoren, um Vision-Sprache-Alignments auf Objektebene zu nutzen. In diesem Paper schlagen wir vor, mehrschalige Vision-Sprache-Alignments durch einen einheitlichen Vortrainierungsrahmen zu lernen, der gleichzeitig mehrschalige Ausrichtung und mehrschalige Lokalisierung erlernt. Auf dieser Grundlage präsentieren wir X$^2$-VLM, ein all-in-one-Modell mit einer flexiblen modularen Architektur, bei dem wir zudem die Bild-Text-Vortrainierung und Video-Text-Vortrainierung in einem einzigen Modell vereinheitlichen. X$^2$-VLM ist in der Lage, unbegrenzte visuelle Konzepte zu lernen, die mit vielfältigen Textbeschreibungen assoziiert sind. Experimentelle Ergebnisse zeigen, dass X$^2$-VLM sowohl bei Basis- als auch bei großskaligen Aufgaben für Bild-Text- und Video-Text-Aufgaben die besten Leistungen erzielt und dabei ein gutes Gleichgewicht zwischen Leistungsfähigkeit und Modellgröße erreicht. Darüber hinaus zeigen wir, dass die modulare Architektur von X$^2$-VLM eine hohe Übertragbarkeit ermöglicht, sodass das Modell in beliebigen Sprachen oder Domänen eingesetzt werden kann. Beispielsweise übertrifft X$^2$-VLM state-of-the-art multilinguale multimodale Vortrainierungsmodelle, ohne dass eine multilinguale Vortrainierung durchgeführt wurde, indem lediglich der Textencoder durch XLM-R ersetzt wird. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/zengyan-97/X2-VLM verfügbar.

X$^2$-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache | Neueste Forschungsarbeiten | HyperAI