HyperAIHyperAI

Command Palette

Search for a command to run...

Vision-Sprache-Vision Auto-Encoder: Skalierbare Wissensverdichtung aus Diffusionsmodellen

Tiezheng Zhang Yitong Li Yu-cheng Chou Jieneng Chen Alan Yuille Chen Wei Junfei Xiao

Zusammenfassung

Die Erstellung von state-of-the-art Vision-Sprach-Modellen (VLMs) mit starken Beschreibungsfähigkeiten erfordert in der Regel das Training auf Milliarden hochwertiger Bild-Text-Paare, was Millionen von GPU-Stunden benötigt. In dieser Arbeit wird das Vision-Sprache-Vision (VLV)-Autoencoder-Framework vorgestellt, das strategisch wichtige vortrainierte Komponenten nutzt: einen Vision-Encoder, den Decoder eines Text-zu-Bild (T2I)-Diffusionsmodells und anschließend ein großes Sprachmodell (LLM). Insbesondere schaffen wir eine Informationsflaschenhals durch die Regularisierung des Sprachrepräsentationsraums, die durch das Fixieren des vortrainierten T2I-Diffusionsdecoders erreicht wird. Unser VLV-Pipeline extrahiert effektiv Wissen aus dem textbedingten Diffusionsmodell unter Verwendung kontinuierlicher Einbettungen und zeigt umfassendes semantisches Verständnis durch hochwertige Rekonstruktionen. Darüber hinaus bauen wir einen state-of-the-art (SoTA)-Beschreiber, vergleichbar mit führenden Modellen wie GPT-4o und Gemini 2.0 Flash, indem wir ein vortrainiertes LLM feintunen, um die intermediären Sprachrepräsentationen in detaillierte Beschreibungen zu decodieren. Unsere Methode zeichnet sich durch außergewöhnliche Kosteneffizienz aus und reduziert die Datenanforderungen erheblich; sie nutzt primär mono-modale Bilder für das Training und maximiert die Nutzung vorhandener vortrainierter Modelle (Bild-Encoder, T2I-Diffusionsmodell und LLM), wodurch die Notwendigkeit riesiger geparter Bild-Text-Datensätze vermieden wird und die gesamten Trainingskosten unter 1.000 US-Dollar gehalten werden können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp