HyperAIHyperAI

Command Palette

Search for a command to run...

Freisetzen von Transformers: Parallel Token-Vorhersage mit diskreter absorbierender Diffusion zur schnellen Erzeugung hochauflösender Bilder aus vektorquantisierten Codes

Sam Bond-Taylor Peter Hessey Hiroshi Sasaki Toby P. Breckon Chris G. Willcocks

Zusammenfassung

Während Diffusions-wahrscheinliche Modelle hochwertigen Bildinhalt generieren können, bestehen weiterhin wesentliche Einschränkungen hinsichtlich der Erzeugung hochauflösender Bilder sowie der damit verbundenen hohen Rechenanforderungen. Kürzlich vorgestellte vektorquantisierte Bildmodelle haben die Beschränkung der Bildauflösung überwunden, sind jedoch aufgrund der einseitigen, elementweisen autoregressiven Stichprobenziehung aus der Prior prohibitiv langsam. Im Gegensatz dazu schlagen wir in diesem Artikel einen neuartigen diskreten Diffusions-wahrscheinlichen Prior vor, der eine parallele Vorhersage vektorquantisierter Token ermöglicht, indem eine unbeschränkte Transformer-Architektur als Grundlage verwendet wird. Während des Trainings werden die Token ordnungsunabhängig zufällig maskiert, und der Transformer lernt, die ursprünglichen Token vorherzusagen. Diese Parallelität der vektorquantisierten Token-Vorhersage ermöglicht schließlich die unbedingte Generierung global konsistenter, hochauflösender und vielfältiger Bilder mit einem Bruchteil der Rechenkosten. Auf diese Weise können wir Bildauflösungen erzeugen, die jene der ursprünglichen Trainingsdatensätze übertreffen, und zusätzlich pro-Bild-Wahrscheinlichkeitsschätzungen bereitstellen (im Gegensatz zu generativen adversarialen Ansätzen). Unser Ansatz erzielt state-of-the-art Ergebnisse hinsichtlich der Dichte (LSUN Bedroom: 1,51; LSUN Churches: 1,12; FFHQ: 1,20) und Abdeckung (LSUN Bedroom: 0,83; LSUN Churches: 0,73; FFHQ: 0,80) und zeigt wettbewerbsfähige Ergebnisse hinsichtlich des FID (LSUN Bedroom: 3,64; LSUN Churches: 4,07; FFHQ: 6,11), wobei er zudem Vorteile hinsichtlich Rechenkosten und reduzierter Anforderung an das Trainingsdatenset bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp