منذ 6 أشهر

الملخص

نقدم نموذج جيت-نيميترون (Jet-Nemotron)، وهي عائلة جديدة من نماذج اللغة ذات البنية الهجينة، والتي توازي أو تفوق دقة النماذج الرائدة التي تعتمد على الانتباه الكامل، مع تحسين كبير في معدل إنتاج النصوص. تم تطوير جيت-نيميترون باستخدام منهجية بوسْت ناس (PostNAS)، وهي عملية جديدة لاستكشاف الهياكل العصبية تتيح تصميم النماذج بكفاءة. على عكس النهج السابقة، تبدأ بوسْت ناس بنموذج مُدرّب مسبقًا يعتمد على الانتباه الكامل، وتحفظ أوزان وحدات التحويل المتعددة الطبقات (MLP)، مما يتيح استكشافًا فعّالًا لتصميم وحدات الانتباه. تتضمن العملية أربع مكونات رئيسية: (1) تعلّم أفضل توزيع وحذف للطبقات التي تعتمد على الانتباه الكامل، (2) اختيار وحدات الانتباه الخطية، (3) تصميم وحدات انتباه جديدة، و(4) إجراء بحث مُراعٍ للهاردوير حول القيم الفائقة (hyperparameters). يحقق نموذج جيت-نيميترون-2B دقة مماثلة أو أفضل من نماذج Qwen3 وQwen2.5 وGemma3 وLlama3.2 عبر مجموعة شاملة من الاختبارات، مع تحقيق تسريع في معدل إنتاج النصوص يصل إلى 53.6 مرة، وتسريع في مرحلة التمهيد (prefilling) بنسبة 6.1 مرة. كما يحقق أداءً أعلى من نماذج الانتباه الكامل ذات التوسع المتقدم (MoE) الحديثة، مثل DeepSeek-V3-Small وMoonlight، في اختبارات MMLU وMMLU-Pro، رغم أن هذه النماذج الأكبر حجمًا تعتمد على 15 مليار معلمة إجمالية و2.2 مليار معلمة نشطة فقط.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار