HyperAIHyperAI

Command Palette

Search for a command to run...

جيت-نيميترون: نموذج لغوي فعّال مع بحث هندسي عصبي مُعَدّل

Yuxian Gu Qinghao Hu Shang Yang Haocheng Xi Junyu Chen Song Han Han Cai

الملخص

نقدم نموذج جيت-نيميترون (Jet-Nemotron)، وهي عائلة جديدة من نماذج اللغة ذات البنية الهجينة، والتي توازي أو تفوق دقة النماذج الرائدة التي تعتمد على الانتباه الكامل، مع تحسين كبير في معدل إنتاج النصوص. تم تطوير جيت-نيميترون باستخدام منهجية بوسْت ناس (PostNAS)، وهي عملية جديدة لاستكشاف الهياكل العصبية تتيح تصميم النماذج بكفاءة. على عكس النهج السابقة، تبدأ بوسْت ناس بنموذج مُدرّب مسبقًا يعتمد على الانتباه الكامل، وتحفظ أوزان وحدات التحويل المتعددة الطبقات (MLP)، مما يتيح استكشافًا فعّالًا لتصميم وحدات الانتباه. تتضمن العملية أربع مكونات رئيسية: (1) تعلّم أفضل توزيع وحذف للطبقات التي تعتمد على الانتباه الكامل، (2) اختيار وحدات الانتباه الخطية، (3) تصميم وحدات انتباه جديدة، و(4) إجراء بحث مُراعٍ للهاردوير حول القيم الفائقة (hyperparameters). يحقق نموذج جيت-نيميترون-2B دقة مماثلة أو أفضل من نماذج Qwen3 وQwen2.5 وGemma3 وLlama3.2 عبر مجموعة شاملة من الاختبارات، مع تحقيق تسريع في معدل إنتاج النصوص يصل إلى 53.6 مرة، وتسريع في مرحلة التمهيد (prefilling) بنسبة 6.1 مرة. كما يحقق أداءً أعلى من نماذج الانتباه الكامل ذات التوسع المتقدم (MoE) الحديثة، مثل DeepSeek-V3-Small وMoonlight، في اختبارات MMLU وMMLU-Pro، رغم أن هذه النماذج الأكبر حجمًا تعتمد على 15 مليار معلمة إجمالية و2.2 مليار معلمة نشطة فقط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
جيت-نيميترون: نموذج لغوي فعّال مع بحث هندسي عصبي مُعَدّل | مستندات | HyperAI