Command Palette
Search for a command to run...
GLIGEN: Offene Grundlegung der Text-zu-Bild-Generierung
GLIGEN: Offene Grundlegung der Text-zu-Bild-Generierung
Yuheng Li¹§, Haotian Liu¹§, Qingyang Wu², Fangzhou Mu¹, Jianwei Yang³, Jianfeng Gao³, Chunyuan Li³¶, Yong Jae Lee¹¶
Zusammenfassung
Großskalige Text-zu-Bild-Diffusionsmodelle haben erstaunliche Fortschritte gemacht. Dennoch ist der gegenwärtige Stand, ausschließlich auf textbasierte Eingaben zurückzugreifen, was die Steuerbarkeit einschränken kann. In dieser Arbeit schlagen wir GLIGEN vor, eine Methode zur sprachbasierten Bildgenerierung mit Ankerpunkten (Grounded-Language-to-Image Generation), die die Funktionalität bestehender vortrainierter Text-zu-Bild-Diffusionsmodelle erweitert, indem sie es ermöglicht, diese auch durch ankerpunktbasierte Eingaben zu konditionieren. Um das umfangreiche Konzeptwissen des vortrainierten Modells zu bewahren, frieren wir alle seine Gewichte ein und injizieren die Ankerpunktinformationen über einen geregelten Mechanismus in neue trainierbare Schichten. Unser Modell erreicht eine offene Welt von ankerpunktbasierter Text-zu-Bild-Generierung mit Caption- und Bounding-Box-Konditions-Eingaben, wobei die Ankerfunktion gut auf neue räumliche Konfigurationen und Konzepte verallgemeinert wird. Die zero-shot-Leistung von GLIGEN auf COCO und LVIS übertreffen die der existierenden überwachten Layout-zu-Bild-Baselines deutlich.