Command Palette
Search for a command to run...
DyPE: Dynamische Positionsextrapolation für Diffusionen mit ultrahocher Auflösung
Noam Issachar Guy Yariv Sagie Benaim Yossi Adi Dani Lischinski Raanan Fattal

Abstract
Diffusions-Transformermodule können Bilder mit bemerkenswerter Genauigkeit und Detailtreue erzeugen, doch die Schulung solcher Modelle in extrem hohen Auflösungen bleibt aufgrund der quadratischen Skalierung der Selbst-Attention-Mechanismen mit der Anzahl der Bild-Token äußerst kostspielig. In diesem Paper stellen wir Dynamic Position Extrapolation (DyPE) vor, eine neuartige, trainingsfreie Methode, die es vortrainierten Diffusions-Transformern ermöglicht, Bilder in Auflösungen zu synthetisieren, die weit über die der Trainingsdaten hinausgehen, ohne zusätzlichen Sampling-Aufwand. DyPE nutzt die spektrale Progression aus, die intrinsisch im Diffusionsprozess steckt: Niedrigfrequente Strukturen konvergieren früh, während hochfrequente Komponenten mehr Schritte benötigen, um aufgelöst zu werden. Konkret passt DyPE dynamisch die Positionscodierung des Modells in jedem Diffusions-Schritt an, sodass deren Frequenzspektrum mit dem jeweiligen Stadium des Generierungsprozesses übereinstimmt. Dieser Ansatz ermöglicht es uns, Bilder in Auflösungen zu erzeugen, die die Trainingsauflösung erheblich übersteigen, beispielsweise Bilder mit 16 Millionen Pixeln unter Verwendung von FLUX. Auf mehreren Benchmarks zeigt DyPE konsistent verbesserte Leistung und erreicht den Stand der Technik hinsichtlich der Fidelität bei der Erzeugung von Bildern in extrem hoher Auflösung, wobei die Verbesserungen bei höheren Auflösungen noch deutlicher werden. Die Projektseite ist unter https://noamissachar.github.io/DyPE/ verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.