HyperAI

أعلنت شركة إنفيديا عن إطلاق مجموعة من نوى المعالجة المتقدمة والمدمجة لنماذج مزيج الخبراء، وهي تقنية تهدف إلى تجاوز الاختناقات البرمجية والذاكرة التي تعيق تدريب هذه النماذج الضخمة. تُعد نماذج مزيج الخبراء مكوناً أساسياً في أنظمة الذكاء الاصطناعي الحديثة لقدرتها على توسيع السعة الحسابية مع تفعيل جزء محدود من المعلمات لكل رمز، مما يوفر كفاءة غير مسبوقة ضمن حدود الحوسبة المتاحة. ومع استمرار نمو هذه النماذج، أصبحت تحسينات أداء تدريبها أمراً حاسماً. لتعظيم معدل الإنتاجية، طورت إنفيديا نوى مدمجة مخصصة بلغة CuTe DSL تعالج ثلاثة عوائق رئيسية في البنية التحتية الحالية. أولاً، تدمج النوى عمليات الضرب الخطي العام مع دوال التنشيط المعتمدة على البوابات مثل SwiGLU وGeGLU وsReLU، مما يلغي الحاجة لكتابة وقراءة الذاكرة المؤقتة للبيانات الوسيطة خلال عمليتي الانتشار للأمام والعكس. ثانياً، تتجاوز النوى الاعتماد على وحدة المعالجة المركزية في توقيت تشغيل الكتل، حيث تتبع عدد الرموز لكل مجموعة داخل ذاكرة وحدة المعالجة الرسومية نفسها، مما يمكّن من تنفيذ مخططات CUDA بالكامل دون نقاط مزامنة بين المضيف والجهاز. ثالثاً، تدمج عملية التكميم للدقة المنخفضة مثل MXFP8 وNVFP4 داخل النواة الأساسية، مما يقلل من العبء الناتج عن عمليات الذاكرة الإضافية لحساب القيم العظمى أو نقل المصفوفات. أسفرت هذه التحسينات البنيوية عن تسريع مستوى النواة بنسبة تتراوح بين 1.3 و2.1 مرة مقارنة بالمسارات غير المدمجة التقليدية. وعند التطبيق على بيئة التدريب الشاملة، سجلت التحسينات قفزة بنسبة 8 في المئة في تسريع تدريب نموذج DeepSeek-V3، ونسبة 93 في المئة في إعداد تدريب GPT-OSS. يعود هذا التفوق الكبير بشكل مباشر إلى إزالة الاعتماد على وحدة المعالجة المركزية، وتمكين التشغيل المتزامن الحر، والتداخل الفعال مع نوى الاتصال الشبكية. أصبحت هذه النوى المتاحة حالياً ضمن مكتبة cuDNN Frontend، ويمكن لمطوري الذكاء الاصطناعي الوصول إليها بسلاسة عبر واجهتي Transformer Engine وMegatron-Core. وتخطط إنفيديا لتطوير المزيد من أنماط الدمج الفني، مع دعم إطار عمل JAX، بالإضافة إلى إضافة ميزات مثل إعادة حساب التنشيط، والتجميع المسبق لتقليل تكاليف الترجمة، وتحسين اختيار النوى الأمثل. تأتي هذه التطورات في إطار استراتيجية الشركة المستمرة لتحسين كفاءة العتاد والبرمجيات لتلبية الطلب المتصاعد على تدريب النماذج اللغوية الضخمة بأقل استهلاك للحوسبة والطاقة.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

تسريع تدريب نماذج MoE بنوى التكامل المتقدمة

الروابط ذات الصلة

Command Palette

تسريع تدريب نماذج MoE بنوى التكامل المتقدمة

الروابط ذات الصلة

Command Palette

تسريع تدريب نماذج MoE بنوى التكامل المتقدمة

الروابط ذات الصلة