إطلاق نموذج Nemotron 3 Nano 4B للذكاء الاصطناعي المحلي
أطلقت شركة نفيديا نموذج النانو الجديد Nemotron 3 Nano 4B، وهو أحدث عضو في عائلة نماذج Nemotron 3، مصمم خصيصاً للعمل بكفاءة عالية وأداء دقيق في بيئات الحوسبة المصغرة والحافة. يتميز هذا النموذج ببنية هجينة تجمع بين هندسة Mamba وTransformer، مما يسمح بتشغيله بسعة ذكاء اصطناعي محسّنة على نطاق واسع من منصات نفيديا، بدءاً من وحدات المعالجة الرسومية الشخصية مثل GeForce RTX وصولاً إلى المنصات المدمجة مثل Jetson Thor وOrin Nano، بالإضافة إلى أجهزة DGX Spark. يحتوي النموذج على 4 مليار معامل فقط، وهو ما يجعله صغيراً بما يكفي للعمل مباشرة على الأجهزة الطرفية دون الحاجة للسحب السحابي، مما يعزز خصوصية البيانات ويقلل من زمن الاستجابة وتكاليف التشغيل. يركز النموذج بشكل خاص على القدرة على اتباع التعليمات بدقة واستخدام الأدوات الخارجية، مع تجنب "الهلوسة" أو توليد معلومات غير صحيحة، مما يجعله مثالياً لتشغيل الوكلاء المحادثين الشخصيين والتطبيقات التفاعلية المدمجة. تم تطوير النموذج عبر عملية ضغط متقدمة تسمى Nemotron Elastic، حيث تم تقليصه من نموذج أبوي أكبر يحتوي على 9 مليار معامل. لم يتم التدريب من الصفر، بل تم استخدام تقنية تقليم ذكي موجهة بواسطة "توجيه" (Router) مدرب لتحديد المكونات الأكثر أهمية في الشبكة وإزالة الباقي للوصول إلى الحجم المستهدف، وهو ما يوفر موارد حوسبية كبيرة مقارنة بالأساليب التقليدية. بعد مرحلة التقليم، خضع النموذج لعملية "تقطيع معرفي" (Knowledge Distillation) في مرحلتين لاستعادة الدقة: الأولى في سياق قصير وال الثانية في سياق طويل يحتوي على 49 ألف رمز لاستعادة قدرة الاستدلال المعقدة. ولتحسين الأداء، تم تطبيق تهيئة خاصة للمهام مثل حل المسائل في الألعاب والمهام المنطقية. كما خضع النموذج لتدريب محسّن متعدد المراحل يشمل ضبطاً فائقاً للإشراف (SFT) لتعزيز السلامة والموثوقية، تليه مراحل تعزيز تعاقبي (RL) لتحسين التفاعل متعدد الجولات واستخدام الأدوات. لضمان الكفاءة القصوى على الأجهزة المحدودة الموارد، أطلق نفيديا النموذج بصيغتين للكم (Quantization): FP8 وQ4_K_M GGUF. أظهرت النتائج أن نموذج FP8 يعيد استعادة الدقة بنسبة 100% مقارنة بالنسخة الأصلية مع تحقيق تحسن في زمن الاستجابة وسرعة المعالجة يصل إلى 1.8 مرة على أجهزة DGX Spark وJetson Thor. أما نسخة GGUF فمحمية للعمل على منصات مثل Jetson Orin Nano، حيث حققت سرعة توليد تصل إلى 18 رمزاً في الثانية، أي ضعف سرعة النسخة الأكبر حجماً، مما يؤكد ملاءمتها للروبوتات والتطبيقات المدمجة. الآن، أصبح النموذج متاحاً كمصدر مفتوح عبر منصة Hugging Face، مع دعم شامل لمحركي استدلال رئيسيين مثل Transformers وvLLM وTRT-LLM وLlama.cpp. توفر نفيديا أيضاً أمثلة تطبيقية ودليلاً مفصلاً لتشغيل النموذج على منصات Jetson، بالإضافة إلى إمكانية دمجه مع وحدة تطوير الألعاب الرسومية NVIGI لتسريع الأداء أثناء تشغيل الألعاب الثقيلة، مما يفتح آفاقاً جديدة لتطبيقات الذكاء الاصطناعي الفعالة على الأجهزة المحلية.
