vor 7 Monaten

Zusammenfassung

Die Erstellung von state-of-the-art Vision-Sprach-Modellen (VLMs) mit starken Beschreibungsfähigkeiten erfordert in der Regel das Training auf Milliarden hochwertiger Bild-Text-Paare, was Millionen von GPU-Stunden benötigt. In dieser Arbeit wird das Vision-Sprache-Vision (VLV)-Autoencoder-Framework vorgestellt, das strategisch wichtige vortrainierte Komponenten nutzt: einen Vision-Encoder, den Decoder eines Text-zu-Bild (T2I)-Diffusionsmodells und anschließend ein großes Sprachmodell (LLM). Insbesondere schaffen wir eine Informationsflaschenhals durch die Regularisierung des Sprachrepräsentationsraums, die durch das Fixieren des vortrainierten T2I-Diffusionsdecoders erreicht wird. Unser VLV-Pipeline extrahiert effektiv Wissen aus dem textbedingten Diffusionsmodell unter Verwendung kontinuierlicher Einbettungen und zeigt umfassendes semantisches Verständnis durch hochwertige Rekonstruktionen. Darüber hinaus bauen wir einen state-of-the-art (SoTA)-Beschreiber, vergleichbar mit führenden Modellen wie GPT-4o und Gemini 2.0 Flash, indem wir ein vortrainiertes LLM feintunen, um die intermediären Sprachrepräsentationen in detaillierte Beschreibungen zu decodieren. Unsere Methode zeichnet sich durch außergewöhnliche Kosteneffizienz aus und reduziert die Datenanforderungen erheblich; sie nutzt primär mono-modale Bilder für das Training und maximiert die Nutzung vorhandener vortrainierter Modelle (Bild-Encoder, T2I-Diffusionsmodell und LLM), wodurch die Notwendigkeit riesiger geparter Bild-Text-Datensätze vermieden wird und die gesamten Trainingskosten unter 1.000 US-Dollar gehalten werden können.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Bildbeschreibung

Diffusionsmodell

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Bildbeschreibung

Diffusionsmodell

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Vision-Sprache-Vision Auto-Encoder: Skalierbare Wissensverdichtung aus Diffusionsmodellen

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vision-Sprache-Vision Auto-Encoder: Skalierbare Wissensverdichtung aus Diffusionsmodellen

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vision-Sprache-Vision Auto-Encoder: Skalierbare Wissensverdichtung aus Diffusionsmodellen

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters