17日前

PAROAttention: パターン認識に基づく効率的なスパースおよび量子化された注意機構の並べ替え

Zhao, Tianchen ; Hong, Ke ; Yang, Xinhao ; Xiao, Xuefeng ; Li, Huixia ; Ling, Feng ; Xie, Ruiqi ; Chen, Siqi ; Zhu, Hongyu ; Zhang, Yichong ; Wang, Yu

論文の詳細を見る

PAROAttention: パターン認識に基づく効率的なスパースおよび量子化された注意機構の並べ替え

要約

視覚生成において、注意メカニズムの二次的な複雑さは、高解像度画像や多フレーム動画生成に必要な長いトークン列に対して特に高いメモリと計算コストをもたらします。この問題に対処するために、これまでの研究ではスパース化や量子化などの技術が探求されてきました。しかし、これらの技術は低密度やビット幅の削減下で大きな課題に直面しています。系統的な分析を通じて、私たちは注意パターンの分散性と不規則性が核心的な困難であることを特定しました。そのため、これらのパターンに対応するための専門的なスパース化や量子化設計を導入する代わりに、別の戦略として注意パターンの再構成を提案します。視覚特徴抽出の局所集約性から着想を得て、私たちは多様な注意パターンをハードウェアに適したブロック単位のパターンに統一する新しいPattern-Aware token ReOrdering (PARO)技術を設計しました。この統一により、スパース化と量子化が大幅に簡素化され、性能が向上します。私たちはさまざまな設計選択肢の性能効率トレードオフを評価し、統一されたパターン向けに最適化された手法を確立しました。私たちのアプローチであるPAROAttentionは、損失なしの指標で動画と画像生成を行い、フル精度(FP)ベースラインからのほぼ同一の結果を得つつ、著しく低い密度（約20%-30%）とビット幅（INT8/INT4）で動作し、エンドツーエンド遅延が1.9倍から2.7倍速くなるという成果を達成しています。