HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 18 Stunden

SVG-T2I: Skalierung des Text-zu-Bild-Latent-Diffusionsmodells ohne Variationalen Autoencoder

SVG-T2I: Skalierung des Text-zu-Bild-Latent-Diffusionsmodells ohne Variationalen Autoencoder

Abstract

Die visuelle Generierung auf der Grundlage von Visual Foundation Model (VFM)-Darstellungen bietet einen äußerst vielversprechenden, einheitlichen Ansatz zur Integration von visuellem Verständnis, Wahrnehmung und Generierung. Trotz dieses Potenzials bleibt die vollständige Ausbildung großer Text-zu-Bild-Diffusionsmodelle innerhalb des VFM-Darstellungsraums weitgehend unerforscht. Um diese Lücke zu schließen, skalieren wir den SVG-(Self-supervised representations for Visual Generation)-Rahmenwerk und stellen SVG-T2I vor, um eine hochwertige Text-zu-Bild-Synthese direkt im VFM-Funktionsraum zu ermöglichen. Durch die Nutzung einer standardisierten Text-zu-Bild-Diffusions-Pipeline erreicht SVG-T2I konkurrenzfähige Ergebnisse mit 0,75 auf GenEval und 85,78 auf DPG-Bench. Diese Leistung bestätigt die inhärente Repräsentationskraft von VFMs für generative Aufgaben. Wir stellen das gesamte Projekt vollständig als Open Source zur Verfügung, inklusive Autoencoder und Generierungsmodell, sowie deren Trainings-, Inferenz- und Evaluationspipelines und vortrainierte Gewichte, um die weitere Forschung im Bereich der repräsentationsgetriebenen visuellen Generierung zu fördern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp