vor 6 Monaten

Zusammenfassung

Vision-Sprache-Vortrainierung zielt darauf ab, Alignments zwischen Vision und Sprache aus einer großen Menge an Daten zu lernen. Die meisten bestehenden Methoden erlernen lediglich Bild-Text-Alignments. Andere nutzen vortrainierte Objektdetektoren, um Vision-Sprache-Alignments auf Objektebene zu nutzen. In diesem Paper schlagen wir vor, mehrschalige Vision-Sprache-Alignments durch einen einheitlichen Vortrainierungsrahmen zu lernen, der gleichzeitig mehrschalige Ausrichtung und mehrschalige Lokalisierung erlernt. Auf dieser Grundlage präsentieren wir X $^2$ -VLM, ein all-in-one-Modell mit einer flexiblen modularen Architektur, bei dem wir zudem die Bild-Text-Vortrainierung und Video-Text-Vortrainierung in einem einzigen Modell vereinheitlichen. X $^2$ -VLM ist in der Lage, unbegrenzte visuelle Konzepte zu lernen, die mit vielfältigen Textbeschreibungen assoziiert sind. Experimentelle Ergebnisse zeigen, dass X $^2$ -VLM sowohl bei Basis- als auch bei großskaligen Aufgaben für Bild-Text- und Video-Text-Aufgaben die besten Leistungen erzielt und dabei ein gutes Gleichgewicht zwischen Leistungsfähigkeit und Modellgröße erreicht. Darüber hinaus zeigen wir, dass die modulare Architektur von X $^2$ -VLM eine hohe Übertragbarkeit ermöglicht, sodass das Modell in beliebigen Sprachen oder Domänen eingesetzt werden kann. Beispielsweise übertrifft X $^2$ -VLM state-of-the-art multilinguale multimodale Vortrainierungsmodelle, ohne dass eine multilinguale Vortrainierung durchgeführt wurde, indem lediglich der Textencoder durch XLM-R ersetzt wird. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/zengyan-97/X2-VLM verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodale Darstellung

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodale Darstellung

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

X2^22-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

X2^22-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

X2^22-VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

X $^2$ -VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache

X $^2$ -VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache

X $^2$ -VLM: Ein Alles-in-einem vortrainiertes Modell für Aufgaben im Bereich Vision-Sprache