vor 2 Monaten

GLIGEN: Offene Grundlegung der Text-zu-Bild-Generierung

Li, Yuheng ; Liu, Haotian ; Wu, Qingyang ; Mu, Fangzhou ; Yang, Jianwei ; Gao, Jianfeng ; Li, Chunyuan ; Lee, Yong Jae

Abstract

Großskalige Text-zu-Bild-Diffusionsmodelle haben erstaunliche Fortschritte gemacht. Dennoch ist der gegenwärtige Stand, ausschließlich auf textbasierte Eingaben zurückzugreifen, was die Steuerbarkeit einschränken kann. In dieser Arbeit schlagen wir GLIGEN vor, eine Methode zur sprachbasierten Bildgenerierung mit Ankerpunkten (Grounded-Language-to-Image Generation), die die Funktionalität bestehender vortrainierter Text-zu-Bild-Diffusionsmodelle erweitert, indem sie es ermöglicht, diese auch durch ankerpunktbasierte Eingaben zu konditionieren. Um das umfangreiche Konzeptwissen des vortrainierten Modells zu bewahren, frieren wir alle seine Gewichte ein und injizieren die Ankerpunktinformationen über einen geregelten Mechanismus in neue trainierbare Schichten. Unser Modell erreicht eine offene Welt von ankerpunktbasierter Text-zu-Bild-Generierung mit Caption- und Bounding-Box-Konditions-Eingaben, wobei die Ankerfunktion gut auf neue räumliche Konfigurationen und Konzepte verallgemeinert wird. Die zero-shot-Leistung von GLIGEN auf COCO und LVIS übertreffen die der existierenden überwachten Layout-zu-Bild-Baselines deutlich.