HyperAIHyperAI

Command Palette

Search for a command to run...

منذ يوم واحد
NVIDIA
LLM

إنشاء كيبونت Nemotron 3 Ultra NVFP4 عبر Model Optimizer

أعلنت شركة إنفيديا عن إصدار ملف كاشبوينت NVFP4 الخاص بنموذج Nemotron 3 Ultra، مرفقة بتقرير فني مفصل حول منهجية الضغط الكمي والأدوات المستخدمة لتحسين كفاءة التشغيل. يهدف الإصدار إلى معالجة تحديات النوافذ السياقية الطويلة وحركة أوزان النماذج الضخمة، معتمداً صيغة NVFP4 العائمة ذات الأربع بت المتوافقة مع بنية Blackwell. أسفرت عملية التحويل عن تقليص حجم النموذج من 1121 غيغابايت بصيغة BF16 إلى 352.3 غيغابايت، مما يمثل عامل اختزال بنسبة 3.2 مرة ويقلص البصمة التحتية بشكل كبير. من الناحية الأدائية، يحقق النموذج الجديد تسارعاً في معدل الاستنتاج يصل إلى 5.9 مرات على الأعباء المكثفة في فك الشيفرة مقارنة بنموذج GLM-5.1 754B بصيغة FP4، مع الحفاظ على دقة توازي BF16 عبر المعايير التقييمية المختلفة. كما يضمن التوافق التشغيلي مع كل من معالجات Hopper وBlackwell، حيث يعمل تلقائياً بصيغة W4A16 على الذاكرة الأولى وبصيغة W4A4 على الثانية، مما يدعم ميزة التنبؤ متعدد الرموز MTP بكفاءة عالية وتجنب مشاكل امتلاء الذاكرة. أظهرت التجارب أن التوزيع المتجانس للصيغة عبر جميع الطبقات ليس الأمثل، لذا طُبقت دقة هجينة تحافظ على طبقات الإدخال والتصنيف والمخرجات بصيغة BF16، بينما تُضغط خبراء التوجيه في بنية MoE إلى NVFP4، والخبراء المشتركة ومكسات Mamba إلى FP8. واعتمد الفريق استراتيجية قياس متقدمة تسمى Four-Over-Six، حيث تختار كل كتلة تلقائياً بين عتبة 4 أو 6 لتقليل خطأ إعادة البناء، متفوقة بذلك على استراتيجيات القياس القصوى ومربع الخطأ المتوسط في الحفاظ على الدقة. لتحديد السعة المثلى، حدد الباحثون قيمة 5.03 بت لكل عنصر كنقطة اعتدال مثالية توازن بين الكفاءة والأداء. تم تنفيذ خط الأنابيب الكمي باستخدام NVIDIA Model Optimizer المتكامل مع Megatron-LM، مما مكن من التوزيع الموازي على 16 وحدة معالجة، واختزال زمن التحميل والمعايرة من 85 دقيقة إلى 9 دقائق فقط. توفر الأداة ملفات تكوين مرنة بصيغة YAML، تسمح للباحثين بضبط مقاييس الكم تلقائياً أو يدوياً لكل وحدة، مع دعم نشر سحابي آلي عبر أدوات الإطلاق المعتمدة. يظل المشروع مفتوح المصدر وموجهاً للمجتمع البحثي، مع إتاحة الوصفات التقنية على المستودعات الرسمية، مما يمكّن المطورين من تكرار العملية على أي نموذج متوافق، وتعزيز كفاءة تشغيل النماذج الضخمة في البيئات الإنتاجية.

الروابط ذات الصلة

إنشاء كيبونت Nemotron 3 Ultra NVFP4 عبر Model Optimizer | القصص الشائعة | HyperAI