HyperAIHyperAI

Command Palette

Search for a command to run...

Muse: Text-to-Bild-Generierung mittels maskierten generativen Transformers

Zusammenfassung

Wir stellen Muse vor, ein Text-zu-Bild-Transformer-Modell, das eine state-of-the-art-Leistung bei der Bildgenerierung erzielt und dabei erheblich effizienter ist als Diffusions- oder autoregressive Modelle. Muse wird auf einer maskierten Modellierungsaufgabe im diskreten Token-Raum trainiert: Gegeben die aus einem vortrainierten großen Sprachmodell (LLM) extrahierten Text-Embeddings soll Muse zufällig maskierte Bild-Tokens vorhersagen. Im Vergleich zu Pixelraum-Diffusionsmodellen wie Imagen und DALL-E 2 ist Muse aufgrund der Verwendung diskreter Tokens und geringerer Sampling-Iterationen erheblich effizienter; im Vergleich zu autoregressiven Modellen wie Parti ist Muse aufgrund der parallelen Dekodierung effizienter. Die Nutzung eines vortrainierten LLM ermöglicht eine feinabgestimmte Sprachverarbeitung, was sich in hochauflösenden Bildgenerierungen und einer präzisen Verständnis von visuellen Konzepten wie Objekten, deren räumlichen Beziehungen, Pose, Kardinalität usw. niederschlägt. Unser 900-Millionen-Parameter-Modell erreicht eine neue SOTA-Leistung auf CC3M mit einem FID-Score von 6,06. Das 3-Millionen-Parameter-Modell Muse erreicht auf der zero-shot COCO-Evaluation einen FID-Score von 7,88 sowie einen CLIP-Score von 0,32. Muse ermöglicht zudem direkt eine Reihe von Bildbearbeitungsanwendungen ohne Notwendigkeit einer Nachtrainierung oder Inversion des Modells: Inpainting, Outpainting und maskenfreie Bearbeitung. Weitere Ergebnisse sind unter https://muse-model.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Muse: Text-to-Bild-Generierung mittels maskierten generativen Transformers | Paper | HyperAI