HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers zähmen für die Synthese hochaufgelöster Bilder

Esser Patrick ; Rombach Robin ; Ommer Björn

Zusammenfassung

Entworfen, um langreichweitige Interaktionen in sequenziellen Daten zu lernen, zeigen Transformer weiterhin erstklassige Ergebnisse bei einer Vielzahl von Aufgaben. Im Gegensatz zu CNNs enthalten sie keinen induktiven Bias, der lokale Interaktionen bevorzugt. Dies macht sie ausdrucksstark, aber auch rechnerisch für lange Sequenzen, wie hochaufgelöste Bilder, nicht praktikabel. Wir demonstrieren, wie das Kombinieren der Effektivität des induktiven Biases von CNNs mit der Ausdrucksstärke von Transformers es ermöglicht, hochaufgelöste Bilder zu modellieren und damit zu synthetisieren. Wir zeigen, wie man (i) CNNs verwendet, um ein inhaltsreichen Wortschatz von Bildkomponenten zu erlernen, und anschließend (ii) Transformers nutzt, um deren Zusammensetzung innerhalb hochaufgelöster Bilder effizient zu modellieren. Unser Ansatz ist leicht auf bedingte Syntheseaufgaben anwendbar, bei denen sowohl räumlich unabhängige Informationen wie Objektklassen als auch räumliche Informationen wie Segmentierungen die generierten Bilder steuern können. Insbesondere präsentieren wir die ersten Ergebnisse zur semantikgesteuerten Synthese von Megapixelbildern mit Transformers und erreichen den Stand der Technik unter autoregressiven Modellen bei der klassenbedingten ImageNet-Synthese. Der Code und die vorab trainierten Modelle sind unter https://github.com/CompVis/taming-transformers abrufbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp