DuoAttend フレームワーク
DuoAttend は、2024 年にマサチューセッツ工科大学 (MIT) の Han Song チームによって提案された新しいフレームワークで、長いテキスト コンテキストを処理する際の大規模言語モデル (LLM) の推論効率を向上させることを目的としています。関連する論文結果は「DuoAttend: 取得ヘッドとストリーミング ヘッドを使用した効率的なロングコンテキスト LLM 推論”。
このフレームワークは、「検索ヘッド」と「ストリーミング ヘッド」という 2 種類のアテンション ヘッドを巧みに区別することで、モデルのメモリ使用量と計算速度を最適化します。取得ヘッダーは長距離依存関係の処理に重点を置いており、完全なキー値 (KV) キャッシュを必要としますが、ストリーミング ヘッダーは最も近いトークンとアテンション コンバージェンス ポイントに重点を置いており、固定長の KV キャッシュのみが必要です。この設計により、長いテキスト コンテキストを処理するモデルの能力を維持しながら、デコードおよび事前入力中のモデルのメモリ使用量と遅延が大幅に削減されます。
DuoAttend は、検索ヘッダーに完全な KV キャッシュを適用し、ストリーミング ヘッダーに軽量の固定長 KV キャッシュを適用することで、メモリとコンピューティング リソースを最適化します。この改善により、モデルのデコード速度と事前入力の効率が向上するだけでなく、長いテキストを処理する際の待ち時間も短縮されます。マルチヘッド アテンション (MHA) モデルは最大 2.55 倍、グループ クエリ アテンション (GQA) モデルは最大 1.67 倍に削減できます。同時に、デコード速度に関しては、マルチヘッド アテンション (MHA) モデルは最大 2.18 倍、グループ クエリ アテンション (GQA) モデルの場合は、事前入力速度の点で最大 1.50 倍向上できます。 MHA) モデルでは、最大 1.73 倍改善できます。Group Query Attendant (GQA) モデルでは、最大 1.73 倍改善できます。このモデルは、フル アテンション モードと比較して精度の低下を最小限に抑えながら、最大 1.63 倍向上します。特に、量子化技術と組み合わせることで、デュアル アテンション フレームワークにより、単一の A100 GPU でテキスト長 330 万の Llama-3-8B モデルのデコードが可能になります。