HyperAIHyperAI

Command Palette

Search for a command to run...

GLIGEN: Offene Grundlegung der Text-zu-Bild-Generierung

Yuheng Li¹§, Haotian Liu¹§, Qingyang Wu², Fangzhou Mu¹, Jianwei Yang³, Jianfeng Gao³, Chunyuan Li³¶, Yong Jae Lee¹¶

Zusammenfassung

Großskalige Text-zu-Bild-Diffusionsmodelle haben erstaunliche Fortschritte gemacht. Dennoch ist der gegenwärtige Stand, ausschließlich auf textbasierte Eingaben zurückzugreifen, was die Steuerbarkeit einschränken kann. In dieser Arbeit schlagen wir GLIGEN vor, eine Methode zur sprachbasierten Bildgenerierung mit Ankerpunkten (Grounded-Language-to-Image Generation), die die Funktionalität bestehender vortrainierter Text-zu-Bild-Diffusionsmodelle erweitert, indem sie es ermöglicht, diese auch durch ankerpunktbasierte Eingaben zu konditionieren. Um das umfangreiche Konzeptwissen des vortrainierten Modells zu bewahren, frieren wir alle seine Gewichte ein und injizieren die Ankerpunktinformationen über einen geregelten Mechanismus in neue trainierbare Schichten. Unser Modell erreicht eine offene Welt von ankerpunktbasierter Text-zu-Bild-Generierung mit Caption- und Bounding-Box-Konditions-Eingaben, wobei die Ankerfunktion gut auf neue räumliche Konfigurationen und Konzepte verallgemeinert wird. Die zero-shot-Leistung von GLIGEN auf COCO und LVIS übertreffen die der existierenden überwachten Layout-zu-Bild-Baselines deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GLIGEN: Offene Grundlegung der Text-zu-Bild-Generierung | Paper | HyperAI