باحثون من NVIDIA يطورون طريقة جديدة للمشارطة الديناميكية Dynamic Memory Sparsification لزيادة ضغط ذاكرة نموذج的语言模型注意力建模中的关键价值缓存(KV缓存)高达8倍,而不影响模型精度
NVIDIA تقدم طريقة جديدة لضغط ذاكرة الكاش في النماذج اللغوية الكبيرة مع ازدياد الطلب على مهام تتطلب تفكيرًا عميقًا، أصبحت النماذج اللغوية الكبيرة (LLMs) مطلوبة بشكل أكبر لإنتاج سلاسل طويلة أو سلاسل موازية من التفكير. ومع ذلك، يعاني أداء الاستدلال في هذه النماذج من قيود كبيرة بسبب حجم ذاكرة الكاش (KV cache)، وليس فقط عدد الرموز المنتجة. في دراسة حديثة، قدم باحثون من NVIDIA وجامعة إدنبرة تقنية جديدة تسمى "التنحيف الذاكرة الديناميكي" (Dynamic Memory Sparsification - DMS)، وهي طريقة فعالة للبيانات وسليمة للترقية، تقوم بضغط ذاكرة الكاش وتفتح الباب أمام تحسينات هائلة في وقت الاستدلال دون تدهور في دقة النموذج. العقبة: ذاكرة الكاش KV في استدلال النماذج القائمة على Transformer تستخدم النماذج القائمة على Transformer، مثل GPT، LLaMA، وQwen، ذاكرة الكاش KV لتخزين تمثيلات الرموز السابقة عند إنتاج الجمل بشكل تلقائي. ينمو هذا الكاش بشكل خطي مع طول السلسلة وعرضها (السلاسل الموازية)، مما يستهلك كميات كبيرة من ذاكرة GPU ويؤدي إلى بطء في الاستدلال بسبب الوصول المتكرر إلى الذاكرة. التقنيات الموجودة للتحسين من ذاكرة الكاش KV تعتمد إما على تقنيات الخروج من الذاكرة بدون تدريب، مثل الخروج بناءً على وزن الانتباه، أو على تغييرات ثقيلة بعد التدريب، مثل الضغط الذاكرة الديناميكي (DMC). كلتا الطريقتين لها عيوب كبيرة: الأولى تضر بدقة النموذج، بينما الثانية تكون مكلفة من الناحية الحسابية. ديناميكي التنحيف الذاكرة DMS: الضغط دون التنازل عن الدقة تواجه DMS هذه العيوب بنهج هجين: تقوم بتنحيف ذاكرة الكاش بشكل مشابه للطرق التقليدية للتقليم ولكن مع تكلفة تدريبية صغيرة (~1,000 خطوة) وتأخير في الخروج، مما يحافظ على الرموز الهامة مؤقتًا بعد تحديد إخراجها. هذا التصميم يحافظ على معلومات السياق الهامة ويتجنب تراجع الدقة بشكل مفاجئ. الفكرة الأساسية هي جعل قرارات الخروج قابلة للمشتق أثناء التدريب باستخدام آلية عينة Gumbel-sigmoid. الرموز التي يتم توقع إخراجها في المستقبل تظل قابلة للاستخدام لمدة زمنية محددة قبل التخلص منها، مما يسمح للنموذج بامتصاص قيمتها المعلوماتية بشكل أكثر فعالية. ترقية فعالة ببيانات محدودة على عكس DMC، الذي يتطلب آلاف الخطوات التدريبية وتحسينات متقدمة بناءً على التدرج، لا تضيف DMS أي معلمات إضافية لكل رأس انتباه. بدلاً من ذلك، تستعيد جزءًا صغيرًا من آليات الانتباه (عصبونًا واحدًا) لتوقع الخروج. هذا يجعل DMS مثالية لترقية النماذج القائمة دون تغييرات هندسية. النتائج التجريبية: تحسين الأداء دون زيادة التكلفة �试验团队在不同的模型尺寸上测试了DMS,包括Qwen-R1 1.5B、7B和32B。结果显示,在相同的内存和计算预算下,DMS在AIME上提高了9.1分,在GPQA上提高了7.6分,在LiveCodeBench上提高了9.6分。 当与表现最好的基线方法如Quest和TOVA相比时,DMS在KV缓存读取效率(运行时间代理)和峰值内存使用方面始终优于它们,达到了更好的帕累托前沿。 عامة الغرض: أداء متميز في مهام غير مرتبطة بالتفكير DMS تثبت فعاليتها أيضًا في مهام غير مرتبطة بالتفكير. على معايير قصيرة السياق مثل MMLU، GSM8K، وHellaSwag، حافظت DMS على الأداء بنسب ضغط تصل إلى 4× مع تدهور بسيط (~3.5 نقطة). أما في المهام ذات السياق الطويل مثل Needle-in-a-Haystack وVariable Tracking، فقد تفوقت DMS على النماذج التقليدية، مما يشير إلى إمكاناتها في التخفيف من مشاكل مثل تجاوز المعلومات في السلاسل الطويلة. الخلاصة باختصار، يقدم التنحيف الذاكرة الديناميكي (DMS) حلاً عمليًا وقابلًا للتوسع لتعزيز كفاءة الاستدلال في النماذج اللغوية القائمة على Transformer. من خلال ضغط ذاكرة الكاش بشكل ذكي وبتكلفة تدريبية صغيرة، يمكن لـ DMS تمكين النماذج من التفكير في سلاسل أطول أو موازية دون زيادة وقت التشغيل أو متطلبات الذاكرة. مكاسبها المتواصلة عبر مجموعة متنوعة من المهام المرتبطة بالتفكير والمهام العامة تؤكد على مرونتها وفعاليتها. مع انتشار النماذج اللغوية الكبيرة في بيئات محدودة الموارد، تقدم DMS مسارًا مثيرًا للإعجاب يوازن بين الضغط والدقة وسهولة التكامل لأعباء العمل الفعلية. تقييم الحدث من قبل المختصين الباحثون والمطورون في مجال الذكاء الاصطناعي يرون أن DMS تشكل خطوة مهمة نحو تحسين كفاءة النماذج اللغوية الكبيرة. هذه التقنية تتميز بقدرة عالية على التكيف مع النماذج القائمة دون الحاجة إلى تغييرات هندسية كبيرة، مما يجعلها خيارًا جذابًا للمؤسسات التي ترغب في تحسين أداء النماذج الخاصة بها دون زيادة التكاليف التشغيلية بشكل كبير. نبذة عن NVIDIA NVIDIA هي شركة تقنية رائدة في مجال معالجة الرسومات وحلول الذكاء الاصطناعي. تشتهر بتطوير وحدات معالجة الرسومات (GPUs) والتي تلعب دورًا حاسمًا في تحسين أداء النماذج العميقة والتعلم الآلي. من خلال أبحاثها المستمرة وابتكاراتها، تسعى NVIDIA إلى تسهيل استخدام تقنيات الذكاء الاصطناعي في مختلف التطبيقات والصناعات.