برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

منذ 10 أشهر

عندما طُرحت نماذج اللغة الكبيرة لأول مرة، هل تخيلتَ يومًا أن تصبح صغيرة بما يكفي لوضعها داخل ساعة ذكية؟ اليوم، يتحول هذا الحلم تدريجيًا إلى واقع، إذ تصل أجهزة مثل الساعات الذكية إلى النماذج من السحابة، مما يُتيح إجراء محادثات صوتية ومساعدين ذكيين. ومع ذلك، لا يكمن التحدي المُقبل في نشرها على الأجهزة الصغيرة فحسب، بل أيضًا في الحفاظ على قدرات النموذج على التفكير وكفاءته مع الحفاظ على خفة وزنه.

ولمعالجة هذه المشكلة، أطلق فريق NVIDIA نموذج اللغة الكبير خفيف الوزن NVIDIA-Nemotron-Nano-9B-v2 في 19 أغسطس 2025. وباعتباره إصدارًا محسنًا للهندسة المعمارية الهجينة من سلسلة Nemotron،يجمع هذا النموذج بشكل مبتكر بين معالجة التسلسل الطويل الفعالة في Mamba مع قدرات النمذجة الدلالية القوية في Transformer، واستبدال معظم طبقات الاهتمام الذاتي بطبقات مساحة حالة Mamba-2، مما يجعل النموذج أسرع عند معالجة مسارات الاستدلال الطويلة.بفضل 9 مليارات مُعامل فقط، يُحقق هذا النظام دعمًا لسياق فائق الطول يصل إلى 128 ألفًا. وفي معايير الاستدلال المُعقد، يُحقق دقة تُضاهي أو حتى تفوق دقة نموذج المصدر المفتوح الرائد من نفس النطاق، Qwen3-8B، كما زادت إنتاجيته بما يصل إلى 6 أضعاف مُقارنةً بالنموذج الأخير، مُمثلةً بذلك طفرةً كبيرةً في مجال النشر خفيف الوزن وفهم النصوص الطويلة لنماذج اللغات الكبيرة.

بعبارة أخرى، يمثل Nemotron-Nano-9B-v2 أكثر من مجرد "نموذج في جهاز صغير".وبدلاً من ذلك، يهدف المشروع إلى جعل قدرات التفكير القوية خفيفة الوزن ومتاحة للعامة حقًا.ربما في المستقبل، سوف تكون نماذج اللغة الكبيرة قادرة على تزويد الناس بخدمات ذكية في أي وقت وفي أي مكان بشكل "صغير ودقيق".

مقارنة بين جهاز Nemotron Nano 2 وجهاز Qwen3-8B من حيث الدقة والإنتاجية

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

بدلاً من مجرد بناء نموذج صغير، بدأ فريق البحث بنموذج أساسي ذي 12 معلمة، وهو Nemotron-Nano-12B-v2-Base، وقاموا بتدريبه مسبقًا على كمية كبيرة من البيانات المُنتقاة والمُركبة. كما أضافوا بيانات بنمط SFT تغطي مجالات متعددة لتحسين الاستدلال.

وبعد ذلك، أجرى الفريق تدريبًا متعدد المراحل بعد ذلك، بما في ذلك SFT (الضبط الدقيق الخاضع للإشراف)، وIFeval RL (التعليمات التي تتبع التقييم)، وDPO (تحسين التفضيل المباشر)، وRLHF (التعلم المعزز بالتغذية الراجعة البشرية)، لجعل النموذج أكثر دقة ومتانة من حيث الرياضيات، والترميز، واستدعاءات الأدوات، والحوارات ذات السياق الطويل.تم تحديث مجموعة البيانات ذات الصلة بما بعد التدريب وإصدارها باسم "Nemotron-Post-Training-Dataset-v2".توسيع بيانات SFT وRL إلى خمس لغات مستهدفة (الإسبانية والفرنسية والألمانية والإيطالية واليابانية)، وتغطية السيناريوهات مثل الرياضيات والترميز وSTEM (العلوم والتكنولوجيا والهندسة والرياضيات) والحوار، لتحسين قدرات التفكير واتباع الأوامر في النموذج.

عنوان مجموعة البيانات:

https://go.hyper.ai/F3Tbv

استنادًا إلى استراتيجية ضغط وتقطير Minitron، استخدم فريق البحث أسلوب بحث في بنية عصبية بسيطة لتقييم أهمية مكونات النموذج (مثل كل طبقة وشبكة التغذية الأمامية العصبية) ثم تنقيحها. من خلال التنقيح وإعادة التدريب، حسّن الفريق قدرات النموذج الأصلي وحوّله إلى النموذج المُنقّح. في النهاية، ضغطوا النموذج ذي الـ 12 بايتًا إلى Nemotron-Nano-9B-v2 ذي الـ 9 بايتات، مما قلل بشكل كبير من استخدام الموارد مع الحفاظ على دقة الاستدلال.

دورة "نشر NVIDIA-Nemotron-Nano-9B-v2 مع vLLM + Open WebUI" متاحة الآن في قسم "الدروس التعليمية" بموقع HyperAI الإلكتروني (hyper.ai). انضم إلينا لتجربة هذا النموذج اللغوي الكبير "الصغير والدقيق"!

رابط البرنامج التعليمي:

https://go.hyper.ai/DhRS9

تشغيل تجريبي

١. أدخل رابط hyper.ai في متصفحك. بعد الدخول إلى الصفحة الرئيسية، انقر على صفحة البرامج التعليمية، ثم اختر vLLM + Open WebUI لنشر NVIDIA-Nemotron-Nano-9B-v2، ثم انقر على "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

٣. اختر بطاقة الرسومات NVIDIA RTX A6000 سعة 48 جيجابايت وبطاقة PyTorch، ثم انقر على "متابعة". توفر منصة OpenBayes أربعة خيارات للدفع: الدفع حسب الاستخدام أو باقات يومية/أسبوعية/شهرية. يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات مجانية من بطاقة RTX 4090 و5 ساعات مجانية من استخدام المعالج!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

٤. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي ٣ دقائق. عندما تتغير الحالة إلى "قيد التشغيل"، انقر على السهم بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي. يُرجى العلم أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام عنوان واجهة برمجة التطبيقات.

عرض التأثير

بعد الدخول إلى صفحة تشغيل العرض التوضيحي، أدخل Prompt في مربع الحوار وانقر فوق Run (تشغيل).

يصبح الطقس أكثر برودةً تدريجيًا مع بداية الخريف. دع جهاز Nemotron-Nano-9B-v2 يقدم لنا بعض النصائح للتدفئة في أوائل الخريف.

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/DhRS9

احصل على أوراق بحثية عالية الجودة ومقالات تفسيرية متعمقة في مجال AI4S من عام 2023 إلى عام 2024 بنقرة واحدة⬇️

برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

منذ 10 أشهر

معلومة

الاستدلال

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

عنوان مجموعة البيانات:

https://go.hyper.ai/F3Tbv

رابط البرنامج التعليمي:

https://go.hyper.ai/DhRS9

تشغيل تجريبي

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

عرض التأثير

بعد الدخول إلى صفحة تشغيل العرض التوضيحي، أدخل Prompt في مربع الحوار وانقر فوق Run (تشغيل).

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:

https://go.hyper.ai/DhRS9

احصل على أوراق بحثية عالية الجودة ومقالات تفسيرية متعمقة في مجال AI4S من عام 2023 إلى عام 2024 بنقرة واحدة⬇️

برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

تشغيل تجريبي

عرض التأثير

برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

Command Palette

برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

تشغيل تجريبي

عرض التأثير

Command Palette

برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

Command Palette

برنامج تعليمي عبر الإنترنت | NVIDIA تُطلق نماذج صغيرة: معالج Nemotron-Nano-9B-v2 الصغير والمدمج أسرع بست مرات من Qwen3

إصدار مجموعات بيانات ما بعد التدريب متعددة اللغات لتعزيز قدرات النموذج بشكل شامل

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

ملخص البرنامج التعليمي | نماذج صغيرة مفتوحة المصدر تحقق ذكاءً شاملاً يُضاهي GPT-5؛ تقييم شامل للنماذج الشائعة مثل Qwen 3.5/Gemma 4.

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

برنامج تعليمي عبر الإنترنت | أول وكيل نموذج مفتوح المصدر لسلسلة Qwen 3.6: إمكانيات برمجة محسّنة بشكل كبير، ومعلمات تفعيل لا تتجاوز 3 مليارات، متجاوزة Gemma4-31B