HyperAI
il y a 17 jours

PAROAttention : Réorganisation Consciente des Modèles pour une Attention Efficace et Économique en Termes de Ressources dans les Modèles de Génération Visuelle

Zhao, Tianchen ; Hong, Ke ; Yang, Xinhao ; Xiao, Xuefeng ; Li, Huixia ; Ling, Feng ; Xie, Ruiqi ; Chen, Siqi ; Zhu, Hongyu ; Zhang, Yichong ; Wang, Yu
PAROAttention : Réorganisation Consciente des Modèles pour une Attention Efficace et Économique en Termes de Ressources dans les Modèles de Génération Visuelle
Résumé

Dans la génération visuelle, la complexité quadratique des mécanismes d'attention entraîne des coûts élevés en mémoire et en calcul, en particulier pour les séquences de tokens plus longues nécessaires à la génération d'images haute résolution ou de vidéos multicadres. Pour remédier à cela, des recherches antérieures ont exploré des techniques telles que la sparśification et la quantification. Cependant, ces techniques rencontrent des défis importants à faible densité et avec des réductions de largeur de bande. Grâce à une analyse systématique, nous avons identifié que la difficulté principale provient des caractéristiques dispersées et irrégulières des modèles d'attention visuelle. Par conséquent, au lieu d'introduire des conceptions de sparśification et de quantification spécialisées pour s'adapter à ces modèles, nous proposons une stratégie alternative : restructuration du modèle d'attention afin d'alléger les défis. Inspirés par la nature locale de l'agrégation des caractéristiques visuelles, nous avons conçu une nouvelle technique ReOrdre de Tokens Conscient du Modèle (PARO), qui unifie les divers modèles d'attention en un modèle par blocs adapté au matériel. Cette unification simplifie considérablement et améliore à la fois la sparśification et la quantification. Nous évaluons les compromis entre performance et efficacité pour différentes options de conception et finalisons une méthodologie adaptée au modèle unifié. Notre approche, PAROAttention, permet une génération vidéo et image sans perte de qualité métrique, avec des résultats presque identiques aux baselines en précision complète (FP), tout en fonctionnant à une densité notablement plus faible (~20%-30%) et à une largeur de bande (INT8/INT4), offrant ainsi un accélération latente globale de 1,9x à 2,7x.