HyperAI超神经

DuoAttend は、2024 年にマサチューセッツ工科大学 (MIT) の Han Song チームによって提案された新しいフレームワークで、長いテキストコンテキストを処理する際の大規模言語モデル (LLM) の推論効率を向上させることを目的としています。関連する論文結果は「DuoAttend: 取得ヘッドとストリーミングヘッドを使用した効率的なロングコンテキスト LLM 推論”。

このフレームワークは、「検索ヘッド」と「ストリーミングヘッド」という 2 種類のアテンションヘッドを巧みに区別することで、モデルのメモリ使用量と計算速度を最適化します。取得ヘッダーは長距離依存関係の処理に重点を置いており、完全なキー値 (KV) キャッシュを必要としますが、ストリーミングヘッダーは最も近いトークンとアテンションコンバージェンスポイントに重点を置いており、固定長の KV キャッシュのみが必要です。この設計により、長いテキストコンテキストを処理するモデルの能力を維持しながら、デコードおよび事前入力中のモデルのメモリ使用量と遅延が大幅に削減されます。

DuoAttend は、検索ヘッダーに完全な KV キャッシュを適用し、ストリーミングヘッダーに軽量の固定長 KV キャッシュを適用することで、メモリとコンピューティングリソースを最適化します。この改善により、モデルのデコード速度と事前入力の効率が向上するだけでなく、長いテキストを処理する際の待ち時間も短縮されます。マルチヘッドアテンション (MHA) モデルは最大 2.55 倍、グループクエリアテンション (GQA) モデルは最大 1.67 倍に削減できます。同時に、デコード速度に関しては、マルチヘッドアテンション (MHA) モデルは最大 2.18 倍、グループクエリアテンション (GQA) モデルの場合は、事前入力速度の点で最大 1.50 倍向上できます。 MHA) モデルでは、最大 1.73 倍改善できます。Group Query Attendant (GQA) モデルでは、最大 1.73 倍改善できます。このモデルは、フルアテンションモードと比較して精度の低下を最小限に抑えながら、最大 1.63 倍向上します。特に、量子化技術と組み合わせることで、デュアルアテンションフレームワークにより、単一の A100 GPU でテキスト長 330 万の Llama-3-8B モデルのデコードが可能になります。

DuoAttend フレームワーク