HyperAIHyperAI
منذ 10 أيام

لاما-نيميترون: نماذج استدلال فعالة

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, et al
لاما-نيميترون: نماذج استدلال فعالة
الملخص

نُقدّم سلسلة نماذج Llama-Nemotron، وهي عائلة مفتوحة من النماذج المتنوعة في التفكير، تتميز بقدرات استدلالية استثنائية، وكفاءة عالية في الاستنتاج، بالإضافة إلى ترخيص مفتوح يُسمح باستخدامه في البيئات المؤسسية. وتتكوّن هذه العائلة من ثلاثة أحجام: نانو (8 بيليون)، سوبر (49 بيليون)، وأوبرا (253 بيليون)، وتُظهر أداءً تنافسيًا مع أحدث النماذج المتطورة في التفكير مثل DeepSeek-R1، مع تفوق ملحوظ في كفاءة التدفق أثناء الاستنتاج واستهلاك الذاكرة. وفي هذا التقرير، نناقش إجراءات التدريب الخاصة بهذه النماذج، والتي تتضمن استخدام بحث البنية العصبية (Neural Architecture Search) المُستمدّ من نماذج Llama 3 لتعزيز سرعة الاستنتاج، ونقل المعرفة (Knowledge Distillation)، والتدريب المستمر (Continued Pretraining)، يلي ذلك مرحلة ما بعد التدريب المركّزة على التفكير، والتي تتكوّن من جزأين رئيسيين: التخصيص المُراقب (Supervised Fine-Tuning)، والتعلم المعزّز على نطاق واسع (Large-Scale Reinforcement Learning). وتُعدّ نماذج Llama-Nemotron أول نماذج مفتوحة المصدر تدعم زر تبديل ديناميكي للتفكير، مما يسمح للمستخدمين بالتبديل بين نمط المحادثة الاعتيادي ونمط التفكير أثناء الاستنتاج. ولتعزيز البحث المفتوح وتسهيل تطوير النماذج، نقدّم الموارد التالية: 1. نُطلق نماذج Llama-Nemotron للتفكير — LN-Nano، LN-Super، وLN-Ultra — تحت اتفاقية ترخيص النماذج المفتوحة من NVIDIA، التي تتيح الاستخدام التجاري بحرية. 2. نُطلق مجموعة البيانات الكاملة لما بعد التدريب: Llama-Nemotron-Post-Training-Dataset. 3. كما نُطلق رموز التدريب الخاصة بنا: NeMo، وNeMo-Aligner، وMegatron-LM.

لاما-نيميترون: نماذج استدلال فعالة | أحدث الأوراق البحثية | HyperAI