Nemotron-Labs تنشر نماذج انتشار لغوية لانتقال النصوص بسرعة الضوء
أطلقت شركة إنفيديا عائلة نماذج "نيموترون-لابز" للتمديد اللغوي (Nemotron-Labs Diffusion) كحل ثوري يتحدى الحدود التقليدية لنماذج اللغة الكبيرة، حيث تتفادى قيود التوليد النصي خطوة بخطوة. تعتمد النماذج التقليدية على التوليد التلقائي، مما يعني أن كل رمز نصي يعتمد على ما سبقه، وهو ما يستهلك وقتاً طويلاً من وحدة المعالجة ويمنع التعديل على الأخطاء بعد إنتاجها. في المقابل، تستخدم هذه النماذج الجديدة طريقة "التمديد" التي تتيح توليد عدة رموز في وقت متزامن ثم تحسينها تدريجياً، مما يسهل مراجعة النصوص ويزيد من سرعة الاستجابة بشكل كبير. تتضمن عائلة النماذج الجديدة إصدارات بأحجام 3 مليار و8 مليارات و14 مليار معلمة، بالإضافة إلى نموذج يدمج الرؤية واللغة بحجم 8 مليارات معلمة. جميع هذه الإصدارات متاحة بموجب ترخيص مفتوح يهدف لتشجيع الاستخدام التجاري والبحثي. يتميز التصميم المبتكر للنماذج بتقديمه لثلاثة أنماط توليد في نموذج واحد دون الحاجة لتعديل تطبيقات المستخدمين. النمط الأول هو التوليد التلقائي المعتاد لضمان التوافق التام مع سير العمل الحالي. أما النمط الثاني فهو التوليد بالتمديد الذي يولد كتل نصية متتالية لتحسين الكفاءة الحسابية. والنمط الثالث، وهو الأكثر تقدمًا، هو "التخمين الذاتي" الذي يستخدم التوليد بالتمديد لكتابة مسودة أولية لعدة رموز، ثم يستخدم التوليد التلقائي للتحقق منها، مما يجمع بين سرعة التوليد الدائم ودقة التوليد التلقائي. أظهرت النتائج التجريبية أن نموذج نيموترون-لابز بحجم 8 مليارات معلمة حقق دقة أعلى بنسبة 1.2% مقارنة بنموذج Qwen3 المماثل. وفيما يتعلق بالسرعة، سجل نمط التوليد بالتمديد كفاءة أعلى بمعدل 2.6 مرة من النماذج التلقائية التقليدية، بينما وصل نمط التخمين الذاتي إلى زيادة 6 أضعاف في السرعة الخطية و6.4 أضعاف في السرعة التربيعية، مع الحفاظ على دقة مماثلة في المهام المقارنة. تم تدريب هذه النماذج باستخدام استراتيجية فريدة تجمع بين التدريب التلقائي الأولي والتدريب الإضافي على التوليد بالتمديد، مما حافظ على القدرات اللغوية الأساسية وأضاف قدرة التوليد المتوازي. اعتمدت الشركة على مجموعة بيانات ضخمة تحتوي على 1.3 تريليون رمز في مرحلة التدريب المسبق، و45 مليار رمز في مرحلة التدريب الدقيق. توفر إنفيديا أيضًا الكود اللازم لتدريب هذه النماذج عبر إطار عمل Megatron Bridge، ومن المتوقع قريبًا دعمها مباشرة عبر منصة SGLang للنشر والتشغيل. يميز هذا التكامل إمكانية تشغيل النموذج نفسه بثلاث طرق مختلفة بناءً على إعداد بسيط في تهيئة الخوارزمية، مما يمنح المطورين مرونة عالية في اختيار السرعة المناسبة لحجم البيانات المعالجة. يتيح هذا الحل للمطورين تحسين أداء تطبيقاتهم الحساسة للزمن والاستفادة الكاملة من قدرات أجهزة GPU الحديثة، دون الحاجة لتغيير كبير في البنية البرمجية الحالية. مع توفر وثائق تقنية شاملة وصيغ تدريبية، أصبح بإمكان المطورين بدء استخدام هذه التكنولوجيا فورًا لتعزيز عمليات توليد النصوص.
