إطار عمل DuoAttention
DuoAttention هو إطار عمل جديد اقترحه فريق هان سونغ في معهد ماساتشوستس للتكنولوجيا (MIT) في عام 2024، والذي يهدف إلى تحسين كفاءة التفكير في نماذج اللغة الكبيرة (LLMs) عند معالجة سياقات النص الطويلة. نتائج الورقة ذات الصلة هيDuoAttention: استدلال فعال في سياق طويل باستخدام رؤوس الاسترجاع والتدفق".
يعمل هذا الإطار على تحسين استخدام الذاكرة وسرعة الحوسبة في النموذج من خلال التمييز بذكاء بين نوعين من رؤوس الانتباه: "رؤوس الاسترجاع" و"رؤوس التدفق". يركز رأس الاسترجاع على التعامل مع التبعيات طويلة المدى ويتطلب ذاكرة تخزين مؤقتة كاملة للقيمة الرئيسية (KV)، بينما يركز رأس البث على الرموز الحديثة ونقاط التقارب بين الانتباه ويتطلب فقط ذاكرة تخزين مؤقتة KV ذات طول ثابت. يقلل هذا التصميم بشكل كبير من استخدام النموذج للذاكرة والزمن الكامن أثناء فك التشفير والتعبئة المسبقة، مع الحفاظ على قدرة النموذج على التعامل مع سياقات النص الطويلة.
يعمل DuoAttention على تحسين الذاكرة وموارد الحوسبة من خلال تطبيق ذاكرة تخزين مؤقتة KV كاملة لرؤوس الاسترجاع وذاكرة تخزين مؤقتة KV خفيفة الوزن بطول ثابت لرؤوس البث. لا يؤدي هذا التحسين إلى تحسين سرعة فك تشفير النموذج وكفاءة التعبئة المسبقة فحسب، بل يقلل أيضًا من زمن الوصول عند معالجة النصوص الطويلة. بالنسبة لنموذج الاهتمام متعدد الرؤوس (MHA)، يمكن تقليله بما يصل إلى 2.55 مرة، وبالنسبة لنموذج الاهتمام بالاستعلام الجماعي (GQA)، يمكن تقليله بما يصل إلى 1.67 مرة؛ في الوقت نفسه، من حيث سرعة فك التشفير، يمكن زيادة نموذج الاهتمام متعدد الرؤوس (MHA) بما يصل إلى 2.18 مرة، ويمكن زيادة نموذج الاهتمام باستعلام المجموعة (GQA) بما يصل إلى 1.50 مرة؛ من حيث سرعة التعبئة المسبقة، يمكن زيادة نموذج الاهتمام متعدد الرؤوس (MHA) بما يصل إلى 1.73 مرة، ويمكن زيادة نموذج الاهتمام بالاستعلام الجماعي (GQA) بما يصل إلى 1.63 مرة، وبالمقارنة مع وضع الاهتمام الكامل، فإن فقدان الدقة يكون ضئيلاً. ومن الجدير بالذكر أنه بالاقتران مع تقنيات التكميم، يتيح إطار الاهتمام المزدوج فك تشفير نموذج Llama-3-8B بطول نص يبلغ 3.3 مليون على وحدة معالجة رسومية A100 واحدة.