vor 17 Tagen

PAROAttention: Musterbewusstes Neuanordnen für effiziente dünnbesetzte und quantisierte Aufmerksamkeit in visuellen Generierungsmodellen

Zhao, Tianchen ; Hong, Ke ; Yang, Xinhao ; Xiao, Xuefeng ; Li, Huixia ; Ling, Feng ; Xie, Ruiqi ; Chen, Siqi ; Zhu, Hongyu ; Zhang, Yichong ; Wang, Yu

Details der Forschungsarbeit anzeigen

PAROAttention: Musterbewusstes Neuanordnen für effiziente dünnbesetzte und quantisierte Aufmerksamkeit in visuellen Generierungsmodellen

Abstract

Im Bereich der visuellen Generierung führt die quadratische Komplexität von Aufmerksamkeitsmechanismen zu hohen Speicher- und Rechenkosten, insbesondere für längere Token-Sequenzen, die bei der Generierung hochaufgelöster Bilder oder mehrerer Video-Bilder erforderlich sind. Um dieses Problem anzugehen, haben frühere Studien Techniken wie Verdünnung (Sparsification) und Quantisierung untersucht. Diese Techniken stellen jedoch unter niedriger Dichte und reduzierter Bitbreite erhebliche Herausforderungen dar. Durch eine systematische Analyse konnten wir identifizieren, dass das zentrale Problem aus den verstreuten und unregelmäßigen Charakteristika der visuellen Aufmerksamkeitsmuster stammt. Daher schlagen wir eine alternative Strategie vor: Neuorganisation des Aufmerksamkeitsmusters, um die Herausforderungen zu lindern. Inspiriert durch die lokale Aggregierungseigenschaften der visuellen Merkmalsextraktion, entwickeln wir eine neuartige Pattern-Aware Token ReOrdering (PARO)-Technik, die die vielfältigen Aufmerksamkeitsmuster in ein hardwarefreundliches blockweises Muster vereint. Diese Vereinheitlichung vereinfacht und verbessert sowohl Verdünnung als auch Quantisierung erheblich. Wir evaluieren die Leistung-Effizienz-Kompromisse verschiedener Designentscheidungen und legen letztendlich eine Methode fest, die auf das vereinte Muster abgestimmt ist. Unser Ansatz, PAROAttention, erreicht Video- und Bildgenerierung mit fehlerfreien Metriken und nahezu identischen Ergebnissen im Vergleich zu vollpräzisen (FP) Baselines, während er bei deutlich geringerer Dichte (~20%-30%) und Bitbreite (INT8/INT4) betrieben wird, was einen End-to-End-Latenzbeschleunigungsfaktor von 1.9x bis 2.7x ermöglicht.