HyperAIHyperAI
vor einem Monat

Vision-Sprache-Vision Auto-Encoder: Skalierbare Wissensverdichtung aus Diffusionsmodellen

Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao
Vision-Sprache-Vision Auto-Encoder: Skalierbare Wissensverdichtung aus Diffusionsmodellen
Abstract

Die Erstellung von state-of-the-art Vision-Sprach-Modellen (VLMs) mit starken Beschreibungsfähigkeiten erfordert in der Regel das Training auf Milliarden hochwertiger Bild-Text-Paare, was Millionen von GPU-Stunden benötigt. In dieser Arbeit wird das Vision-Sprache-Vision (VLV)-Autoencoder-Framework vorgestellt, das strategisch wichtige vortrainierte Komponenten nutzt: einen Vision-Encoder, den Decoder eines Text-zu-Bild (T2I)-Diffusionsmodells und anschließend ein großes Sprachmodell (LLM). Insbesondere schaffen wir eine Informationsflaschenhals durch die Regularisierung des Sprachrepräsentationsraums, die durch das Fixieren des vortrainierten T2I-Diffusionsdecoders erreicht wird. Unser VLV-Pipeline extrahiert effektiv Wissen aus dem textbedingten Diffusionsmodell unter Verwendung kontinuierlicher Einbettungen und zeigt umfassendes semantisches Verständnis durch hochwertige Rekonstruktionen. Darüber hinaus bauen wir einen state-of-the-art (SoTA)-Beschreiber, vergleichbar mit führenden Modellen wie GPT-4o und Gemini 2.0 Flash, indem wir ein vortrainiertes LLM feintunen, um die intermediären Sprachrepräsentationen in detaillierte Beschreibungen zu decodieren. Unsere Methode zeichnet sich durch außergewöhnliche Kosteneffizienz aus und reduziert die Datenanforderungen erheblich; sie nutzt primär mono-modale Bilder für das Training und maximiert die Nutzung vorhandener vortrainierter Modelle (Bild-Encoder, T2I-Diffusionsmodell und LLM), wodurch die Notwendigkeit riesiger geparter Bild-Text-Datensätze vermieden wird und die gesamten Trainingskosten unter 1.000 US-Dollar gehalten werden können.

Vision-Sprache-Vision Auto-Encoder: Skalierbare Wissensverdichtung aus Diffusionsmodellen | Neueste Forschungsarbeiten | HyperAI