Transformers zähmen für die Synthese hochaufgelöster Bilder

Entworfen, um langreichweitige Interaktionen in sequenziellen Daten zu lernen, zeigen Transformer weiterhin erstklassige Ergebnisse bei einer Vielzahl von Aufgaben. Im Gegensatz zu CNNs enthalten sie keinen induktiven Bias, der lokale Interaktionen bevorzugt. Dies macht sie ausdrucksstark, aber auch rechnerisch für lange Sequenzen, wie hochaufgelöste Bilder, nicht praktikabel. Wir demonstrieren, wie das Kombinieren der Effektivität des induktiven Biases von CNNs mit der Ausdrucksstärke von Transformers es ermöglicht, hochaufgelöste Bilder zu modellieren und damit zu synthetisieren. Wir zeigen, wie man (i) CNNs verwendet, um ein inhaltsreichen Wortschatz von Bildkomponenten zu erlernen, und anschließend (ii) Transformers nutzt, um deren Zusammensetzung innerhalb hochaufgelöster Bilder effizient zu modellieren. Unser Ansatz ist leicht auf bedingte Syntheseaufgaben anwendbar, bei denen sowohl räumlich unabhängige Informationen wie Objektklassen als auch räumliche Informationen wie Segmentierungen die generierten Bilder steuern können. Insbesondere präsentieren wir die ersten Ergebnisse zur semantikgesteuerten Synthese von Megapixelbildern mit Transformers und erreichen den Stand der Technik unter autoregressiven Modellen bei der klassenbedingten ImageNet-Synthese. Der Code und die vorab trainierten Modelle sind unter https://github.com/CompVis/taming-transformers abrufbar.