HyperAIHyperAI

Command Palette

Search for a command to run...

PAROAttention: Musterbewusstes Neuanordnen für effiziente dünnbesetzte und quantisierte Aufmerksamkeit in visuellen Generierungsmodellen

Zusammenfassung

Im Bereich der visuellen Generierung führt die quadratische Komplexität von Aufmerksamkeitsmechanismen zu hohen Speicher- und Rechenkosten, insbesondere für längere Token-Sequenzen, die bei der Generierung hochaufgelöster Bilder oder mehrerer Video-Bilder erforderlich sind. Um dieses Problem anzugehen, haben frühere Studien Techniken wie Verdünnung (Sparsification) und Quantisierung untersucht. Diese Techniken stellen jedoch unter niedriger Dichte und reduzierter Bitbreite erhebliche Herausforderungen dar. Durch eine systematische Analyse konnten wir identifizieren, dass das zentrale Problem aus den verstreuten und unregelmäßigen Charakteristika der visuellen Aufmerksamkeitsmuster stammt. Daher schlagen wir eine alternative Strategie vor: Neuorganisation des Aufmerksamkeitsmusters, um die Herausforderungen zu lindern. Inspiriert durch die lokale Aggregierungseigenschaften der visuellen Merkmalsextraktion, entwickeln wir eine neuartige Pattern-Aware Token ReOrdering (PARO)-Technik, die die vielfältigen Aufmerksamkeitsmuster in ein hardwarefreundliches blockweises Muster vereint. Diese Vereinheitlichung vereinfacht und verbessert sowohl Verdünnung als auch Quantisierung erheblich. Wir evaluieren die Leistung-Effizienz-Kompromisse verschiedener Designentscheidungen und legen letztendlich eine Methode fest, die auf das vereinte Muster abgestimmt ist. Unser Ansatz, PAROAttention, erreicht Video- und Bildgenerierung mit fehlerfreien Metriken und nahezu identischen Ergebnissen im Vergleich zu vollpräzisen (FP) Baselines, während er bei deutlich geringerer Dichte (~20%-30%) und Bitbreite (INT8/INT4) betrieben wird, was einen End-to-End-Latenzbeschleunigungsfaktor von 1.9x bis 2.7x ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PAROAttention: Musterbewusstes Neuanordnen für effiziente dünnbesetzte und quantisierte Aufmerksamkeit in visuellen Generierungsmodellen | Paper | HyperAI