LAVa: إزالة ذاكرة التخزين المؤقت للقيم المفتاحية طبقًا للطبقات مع تخصيص ميزانية ديناميكية

يُستخدم مخزن KV بشكل شائع لتسريع استنتاج النماذج الكبيرة للغة (LLM) في السياقات الطويلة، لكن الحاجة إلى استهلاك ذاكرة عالية تدفع إلى الحاجة إلى ضغط المخزن. ومع ذلك، فإن الطرق الحالية للضغط تعتمد بشكل كبير على المنهجيات التجريبية وتفتقر إلى تخصيص ميزانية ديناميكية. لمعالجة هذه القيود، نقدّم إطارًا موحدًا لضغط مخزن KV من خلال تقليل فقدان المعلومات في تدفقات الباقي (residual streams) في نموذج Transformer. بناءً على هذا الإطار، نحلل فقدان مخرجات الانتباه حسب الطبقات، ونستنتج معيارًا جديدًا لمقارنة مدخلات المخزن عبر الرؤوس (heads)، مما يمكّن من ضغط طبقي مع تخصيص ميزانيات ديناميكية للرؤوس. علاوة على ذلك، وباستخدام المقارنة بين المعلومات عبر الطبقات المختلفة، نحقق أيضًا تخصيص ميزانيات ديناميكية للطبقات. يُعد LAVa أول استراتيجية موحدة لحذف مدخلات المخزن وتخصيص ميزانيات ديناميكية، ولا يعتمد على التدريب أو دمج استراتيجيات متعددة كما كان الحال في الطرق السابقة. تُظهر التجارب على معايير معيارية (LongBench، Needle-In-A-Haystack، Ruler، InfiniteBench) تفوقه المُبهر. علاوة على ذلك، كشفت تجاربنا عن رؤية جديدة: إن تخصيص ميزانيات ديناميكية للطبقات أمر بالغ الأهمية في المهام المتعلقة بالإنشاء (مثل إكمال الكود)، في حين أن تخصيص ميزانيات ديناميكية للرؤوس يُعد عنصرًا محوريًا في المهام المتعلقة باستخراج المعلومات (مثل الاستجابة القائمة على السؤال والاستخلاص). وباعتباره طريقة ضغط كاملة الديناميكية، يُبقي LAVa أداءً متميزًا باستمرار عبر أنواع المهام المختلفة. يمكن الاطلاع على الكود الخاص بنا عبر الرابط التالي: https://...