HyperAIHyperAI
vor 2 Monaten

ReCo: Regionen-gesteuerte Text-zu-Bild-Generierung

Yang, Zhengyuan ; Wang, Jianfeng ; Gan, Zhe ; Li, Linjie ; Lin, Kevin ; Wu, Chenfei ; Duan, Nan ; Liu, Zicheng ; Liu, Ce ; Zeng, Michael ; Wang, Lijuan
ReCo: Regionen-gesteuerte Text-zu-Bild-Generierung
Abstract

Kürzlich haben große Text-zu-Bild (T2I) Modelle beeindruckende Leistungen bei der Generierung hochwertiger Bilder gezeigt, jedoch mit begrenzter Steuerbarkeit, zum Beispiel bei der präzisen Spezifizierung von Inhalten in bestimmten Bereichen durch eine frei formulierbare Textbeschreibung. In dieser Arbeit schlagen wir eine effektive Technik zur regionalen Steuerung bei der T2I-Generierung vor. Wir erweitern die Eingaben der T2I-Modelle um ein zusätzliches Satz von Positionstoken, die die quantisierten räumlichen Koordinaten darstellen. Jeder Bereich wird durch vier Positionstoken spezifiziert, um die oberen linken und unteren rechten Ecken zu repräsentieren, gefolgt von einer offenen natürlichsprachlichen Beschreibung des Bereichs. Anschließend feinjustieren wir ein vortrainiertes T2I-Modell mit dieser neuen Eingangsschnittstelle. Unser Modell, als ReCo (Region-Controlled T2I) bezeichnet, ermöglicht die regionale Steuerung für beliebige Objekte, die durch offene regionale Texte beschrieben werden, anstatt durch Objektlabels aus einer eingeschränkten Kategoriegruppe. Empirisch erreicht ReCo eine bessere Bildqualität als das durch positionale Wörter verstärkte T2I-Modell (FID: 8,82 -> 7,36; SceneFID: 15,54 -> 6,51 auf COCO), wobei die Objekte genauer platziert werden und eine Verbesserung der regionalen Klassifikationsgenauigkeit von 20,40 % auf COCO erreicht wird. Darüber hinaus zeigen wir, dass ReCo besser die Anzahl der Objekte, ihre räumliche Beziehung sowie regionale Attribute wie Farbe/Größe steuern kann, basierend auf der frei formulierten regionalen Beschreibung. Eine menschliche Bewertung auf PaintSkill zeigt, dass ReCo um +19,28 % und +17,21 % genauer ist in der Generierung von Bildern mit korrekter Objektanzahl und räumlicher Beziehung im Vergleich zum T2I-Modell.

ReCo: Regionen-gesteuerte Text-zu-Bild-Generierung | Neueste Forschungsarbeiten | HyperAI