HyperAIHyperAI

Command Palette

Search for a command to run...

GALIP: Generative Adversarial CLIPs für Text-zu-Bild-Synthese

Ming Tao Bing-Kun Bao Hao Tang Changsheng Xu

Zusammenfassung

Die Synthese hochfidelitätsreicher, komplexer Bilder aus Text ist herausfordernd. Auf Basis umfangreicher Vortrainings können autoregressive und Diffusionsmodelle foto-realistische Bilder generieren. Obwohl diese großen Modelle beachtliche Fortschritte erzielt haben, bestehen nach wie vor drei Hauptprobleme: 1) Diese Modelle erfordern enorme Mengen an Trainingsdaten und Parameter, um gute Leistung zu erzielen. 2) Das mehrstufige Generierungsdesign verlangsamt den Bildsyntheseprozess erheblich. 3) Die generierten visuellen Merkmale sind schwer zu kontrollieren und erfordern sorgfältig gestaltete Prompts. Um eine hochwertige, effiziente, schnelle und kontrollierbare Text-zu-Bild-Synthese zu ermöglichen, schlagen wir Generative Adversarial CLIPs, kurz GALIP, vor. GALIP nutzt das leistungsstarke vortrainierte CLIP-Modell sowohl im Diskriminator als auch im Generator. Speziell stellen wir einen CLIP-basierten Diskriminator vor, dessen Fähigkeit zur Verarbeitung komplexer Szenen die präzise Beurteilung der Bildqualität ermöglicht. Darüber hinaus entwickeln wir einen CLIP-empowerten Generator, der visuelle Konzepte über sogenannte Brückenmerkmale und Prompts aus CLIP ableitet. Die Integration von CLIP in Generator und Diskriminator steigert die Trainingseffizienz erheblich, sodass unser Modell lediglich etwa 3 % der Trainingsdaten und 6 % der lernbaren Parameter benötigt, um Ergebnisse zu erzielen, die mit großen vortrainierten autoregressiven und Diffusionsmodellen vergleichbar sind. Zudem erreicht unser Modell eine Synthesegeschwindigkeit, die 120-mal schneller ist, und bewahrt gleichzeitig den glatten Latentraum von GANs. Umfangreiche experimentelle Ergebnisse belegen die herausragende Leistung unseres GALIP. Der Quellcode ist unter https://github.com/tobran/GALIP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp