HyperAIHyperAI

Command Palette

Search for a command to run...

Kascade:長文脈LLM推論における実用的なスパースアテンション手法

Dhruv Deshmukh Saurabh Goyal Nipun Kwatra Ramachandran Ramjee

Abstract

長文コンテキストにおけるLLM推論の遅延の主因は注目(Attention)であり、推論モデルやRAG(Retrieval-Augmented Generation)においてますます注目されるワークロードである。本研究では、学習を必要とせず、既知の観察結果(1)softmax後の注目値は本質的にスパースである、および(2)隣接する層間で重みの高いキー(key)の識別子が安定していること)を活用する、Kascadeというスパース注目手法を提案する。Kascadeは、アンカー層(anchor layer)と呼ばれる少数の層で正確なTop-kインデックスを計算し、そのインデックスを中間の再利用層(reuse layer)で再利用する。アンカー層は、開発データセット上で層間の類似度を最大化する動的計画法に基づく目的関数によって自動的に選定され、モデル間での容易な展開を可能にする。本手法は、プレフィル(prefill)およびデコード(decode)両方の注目処理において、効率的な実装制約(例:タイル単位の演算)を組み込んでいる。KascadeにおけるTop-k選択と再利用はヘッドに配慮しており、実験により、これが高い精度を維持するために不可欠であることを示した。H100 GPU上でFlashAttention-3ベースラインと比較して、Kascadeはデコード時の注目処理で最大4.1倍、プレフィル時の注目処理で最大2.2倍の高速化を達成しつつ、LongBenchやAIME-24といった長文コンテキストベンチマークにおいて、密行列(dense)注目とほぼ同等の精度を実現した。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています