vor 4 Tagen

Lokalitätsbewusstes paralleles Decodieren für effiziente autoregressive Bildgenerierung

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

Abstract

Wir stellen Locality-aware Parallel Decoding (LPD) vor, um die autoregressive Bildgenerierung zu beschleunigen. Traditionelle autoregressive Bildgenerierung basiert auf der Vorhersage des nächsten Patches, einem speicherintensiven Prozess, der zu hohen Latenzen führt. Bestehende Arbeiten haben versucht, die Vorhersage des nächsten Patches durch den Übergang zur Mehrfach-Patch-Vorhersage zu parallelisieren, um den Prozess zu beschleunigen, aber nur eine begrenzte Parallelisierung erreicht. Um eine hohe Parallelisierung unter gleichzeitiger Erhaltung der Generierungsqualität zu erreichen, führen wir zwei Kernmethoden ein: (1) Flexibles paralleles autoregressives Modellieren, eine neuartige Architektur, die beliebige Generierungsreihenfolgen und Grad der Parallelisierung ermöglicht. Sie verwendet lernfähige Positionsanfrage-Token, um die Generierung an Zielpositionen zu steuern und gleichzeitig die gegenseitige Sichtbarkeit zwischen gleichzeitig generierten Token sicherzustellen, um konsistente parallele Dekodierung zu gewährleisten. (2) Lokalitätsbewusste Generierungsreihenfolge, ein neuartiger Zeitplan, der Gruppen bildet, um Abhängigkeiten innerhalb der Gruppen zu minimieren und den kontextuellen Support zu maximieren, wodurch die Generierungsqualität verbessert wird. Mit diesen Designentscheidungen reduzieren wir die Anzahl der Generierungsschritte von 256 auf 20 (für 256x256 Auflösung) und von 1024 auf 48 (für 512x512 Auflösung), ohne dabei die Qualität bei der ImageNet-Klassenbedingten-Generierung einzubüßen und erreichen mindestens 3,4-fach niedrigere Latenz als frühere parallele autoregressive Modelle.