تحسين أداء الاستدلال بسياقات طويلة وحجمات كبيرة عبر تهيئة KV Cache بـ NVFP4
تُعدّ تقنية NVFP4 لتخزين مصفوفات المفتاح والقيمة (KV Cache) تطورًا حاسمًا في تحسين أداء النماذج اللغوية الكبيرة أثناء التوليد (inference)، خاصة في المهام التي تتطلب تسلسلاً طويلاً أو حجمًا كبيرًا من الحزم (batch sizes). تُقلل هذه التقنية من حجم ذاكرة KV cache بنسبة تصل إلى 50% مقارنة بالصيغة القياسية FP8، ما يُضاعف القدرة على تخزين السياق (context budget) ويدعم توليد تسلسلات أطول بسلاسة، مع الحفاظ على دقة عالية تُقلّ عن 1% مقارنة بالأساسيات (BF16 وFP8) في معايير مثل LiveCodeBench، MMLU-PRO، MBPP، وRuler 64K. تُعدّ KV cache أداة حيوية في النماذج التحويلية (transformers) التي تعتمد على التوليد التسلسلي (autoregressive)، حيث تُخزن مصفوفات المفتاح (key) والقيمة (value) للرموز السابقة لتفادي إعادة حسابها في كل خطوة. لكن تكاليف الذاكرة والعرض الناتجة عن هذه المصفوفات تُعدّ عائقًا رئيسيًا، خصوصًا في المهام الطويلة أو ذات الحمولة العالية. وتمثّل NVFP4 تقدّمًا جديدًا في تقليل هذه التكاليف عبر تقليل دقة تخزين KV cache من 16 بت إلى 4 بت، مع الحفاظ على جودة الحسابات عبر تقنيات التحويل الدقيقة. في العملية، يتم تخزين المفاتيح والقيم الجديدة بتنسيق NVFP4، بينما تُعاد تهيئة القيم المخزنة إلى FP8 عند استخدامها في العمليات الحسابية (مثل الانتباه). تُستخدم أدوات مثل NVIDIA TensorRT Model Optimizer لتطبيق التقطيع (quantization) عبر طريقتي التدريب: التقطيع بعد التدريب (PTQ) أو التقطيع أثناء التدريب (QAT)، مع تعديل بسيط في التكوين لتفعيل NVFP4 لـ KV cache. ويُمكن دمج هذه التقنية مع نماذج Hugging Face وMegatron بسهولة. أحد الفوائد الرئيسية لـ NVFP4 هو تحسين معدلات الارتباط بالذاكرة (cache-hit rate)، حيث يسمح الحجم الأصغر بالاحتفاظ بسياق أطول داخل الذاكرة العشوائية (HBM)، مما يقلل من حالات الفشل (cache misses) ويقلل من الحاجة لإعادة الحساب. هذا يؤدي إلى تقليل زمن الوصول إلى أول رمز (TTFT) بنسبة تصل إلى 3 أضعاف، وزيادة كفاءة التغذية المسبقة (prefill) بشكل كبير. بالإضافة إلى الأداء، تُظهر NVFP4 أداءً متفوقًا مقارنة ببدائل أخرى مثل MXFP4، حيث سجلت نموذج Llama 3.3 70B دقة أعلى بنسبة 5% عند استخدام NVFP4، وذلك بفضل تحسينات في التحجيم الكتلي (block scaling) ودقة عوامل التحجيم (scaling factors) في النموذج FP8 E4M3، ما يقلل من الخطأ الناتج عن التقطيع. بفضل هذه التحسينات، يُمكن للنماذج الكبيرة، خاصة تلك التي تعتمد على التوسع الواسع (Wide Expert Parallelism) أو النماذج المتعددة الخبير (MoE)، الاستفادة من تكامل أعمق مع مكونات أخرى في بيئة NVIDIA، مثل NVLink، وتحسينات النوى (kernels)، وتقنيات التوجيه الذكي (KV-aware routing) في Dynamo. هذا يُعزز من إمكانية تقديم خدمات ذات سياقات طويلة، وعدد كبير من المستخدمين المتزامنين، دون التضحية بالدقة. في الختام، تمثل NVFP4 خطوة عملية ضمن التصميم المتكامل بين البرمجيات والعتاد في منصة NVIDIA، وتُعدّ حجر الأساس لبناء أنظمة توليد لغوي فعّالة، قادرة على التوسع في الحجم والتعقيد، مع الحفاظ على الأداء العالي والدقة.
