SVG-T2I: Skalierung des Text-zu-Bild-Latent-Diffusionsmodells ohne Variationalen Autoencoder
SVG-T2I: Skalierung des Text-zu-Bild-Latent-Diffusionsmodells ohne Variationalen Autoencoder

Abstract
Die visuelle Generierung auf der Grundlage von Visual Foundation Model (VFM)-Darstellungen bietet einen äußerst vielversprechenden, einheitlichen Ansatz zur Integration von visuellem Verständnis, Wahrnehmung und Generierung. Trotz dieses Potenzials bleibt die vollständige Ausbildung großer Text-zu-Bild-Diffusionsmodelle innerhalb des VFM-Darstellungsraums weitgehend unerforscht. Um diese Lücke zu schließen, skalieren wir den SVG-(Self-supervised representations for Visual Generation)-Rahmenwerk und stellen SVG-T2I vor, um eine hochwertige Text-zu-Bild-Synthese direkt im VFM-Funktionsraum zu ermöglichen. Durch die Nutzung einer standardisierten Text-zu-Bild-Diffusions-Pipeline erreicht SVG-T2I konkurrenzfähige Ergebnisse mit 0,75 auf GenEval und 85,78 auf DPG-Bench. Diese Leistung bestätigt die inhärente Repräsentationskraft von VFMs für generative Aufgaben. Wir stellen das gesamte Projekt vollständig als Open Source zur Verfügung, inklusive Autoencoder und Generierungsmodell, sowie deren Trainings-, Inferenz- und Evaluationspipelines und vortrainierte Gewichte, um die weitere Forschung im Bereich der repräsentationsgetriebenen visuellen Generierung zu fördern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.