HyperAIHyperAI
منذ 14 ساعات

جيت-نيميترون: نموذج لغوي فعّال مع بحث هندسي عصبي مُعَدّل

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai
جيت-نيميترون: نموذج لغوي فعّال مع بحث هندسي عصبي مُعَدّل
الملخص

نقدم نموذج جيت-نيميترون (Jet-Nemotron)، وهي عائلة جديدة من نماذج اللغة ذات البنية الهجينة، والتي توازي أو تفوق دقة النماذج الرائدة التي تعتمد على الانتباه الكامل، مع تحسين كبير في معدل إنتاج النصوص. تم تطوير جيت-نيميترون باستخدام منهجية بوسْت ناس (PostNAS)، وهي عملية جديدة لاستكشاف الهياكل العصبية تتيح تصميم النماذج بكفاءة. على عكس النهج السابقة، تبدأ بوسْت ناس بنموذج مُدرّب مسبقًا يعتمد على الانتباه الكامل، وتحفظ أوزان وحدات التحويل المتعددة الطبقات (MLP)، مما يتيح استكشافًا فعّالًا لتصميم وحدات الانتباه. تتضمن العملية أربع مكونات رئيسية: (1) تعلّم أفضل توزيع وحذف للطبقات التي تعتمد على الانتباه الكامل، (2) اختيار وحدات الانتباه الخطية، (3) تصميم وحدات انتباه جديدة، و(4) إجراء بحث مُراعٍ للهاردوير حول القيم الفائقة (hyperparameters). يحقق نموذج جيت-نيميترون-2B دقة مماثلة أو أفضل من نماذج Qwen3 وQwen2.5 وGemma3 وLlama3.2 عبر مجموعة شاملة من الاختبارات، مع تحقيق تسريع في معدل إنتاج النصوص يصل إلى 53.6 مرة، وتسريع في مرحلة التمهيد (prefilling) بنسبة 6.1 مرة. كما يحقق أداءً أعلى من نماذج الانتباه الكامل ذات التوسع المتقدم (MoE) الحديثة، مثل DeepSeek-V3-Small وMoonlight، في اختبارات MMLU وMMLU-Pro، رغم أن هذه النماذج الأكبر حجمًا تعتمد على 15 مليار معلمة إجمالية و2.2 مليار معلمة نشطة فقط.