vor 17 Tagen

Muse: Text-to-Bild-Generierung mittels maskierten generativen Transformers

Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan

Details der Forschungsarbeit anzeigen

Muse: Text-to-Bild-Generierung mittels maskierten generativen Transformers

Abstract

Wir stellen Muse vor, ein Text-zu-Bild-Transformer-Modell, das eine state-of-the-art-Leistung bei der Bildgenerierung erzielt und dabei erheblich effizienter ist als Diffusions- oder autoregressive Modelle. Muse wird auf einer maskierten Modellierungsaufgabe im diskreten Token-Raum trainiert: Gegeben die aus einem vortrainierten großen Sprachmodell (LLM) extrahierten Text-Embeddings soll Muse zufällig maskierte Bild-Tokens vorhersagen. Im Vergleich zu Pixelraum-Diffusionsmodellen wie Imagen und DALL-E 2 ist Muse aufgrund der Verwendung diskreter Tokens und geringerer Sampling-Iterationen erheblich effizienter; im Vergleich zu autoregressiven Modellen wie Parti ist Muse aufgrund der parallelen Dekodierung effizienter. Die Nutzung eines vortrainierten LLM ermöglicht eine feinabgestimmte Sprachverarbeitung, was sich in hochauflösenden Bildgenerierungen und einer präzisen Verständnis von visuellen Konzepten wie Objekten, deren räumlichen Beziehungen, Pose, Kardinalität usw. niederschlägt. Unser 900-Millionen-Parameter-Modell erreicht eine neue SOTA-Leistung auf CC3M mit einem FID-Score von 6,06. Das 3-Millionen-Parameter-Modell Muse erreicht auf der zero-shot COCO-Evaluation einen FID-Score von 7,88 sowie einen CLIP-Score von 0,32. Muse ermöglicht zudem direkt eine Reihe von Bildbearbeitungsanwendungen ohne Notwendigkeit einer Nachtrainierung oder Inversion des Modells: Inpainting, Outpainting und maskenfreie Bearbeitung. Weitere Ergebnisse sind unter https://muse-model.github.io verfügbar.