تُحسّن NVIDIA Blackwell Ultra كفاءة دالة السوفتماكس لتعزيز أداء الذكاء الاصطناعي في النماذج الطويلة السياق
مع تزايد طول السياقات في النماذج الكبيرة للغة (LLMs)، أصبحت الهياكل العصبية أكثر تعقيدًا، مع انتشار تقنيات مثل الانتباه متعدد الرؤوس المخفية (MLA) وانتباه الاستعلام المجمّع (GQA). ومع ذلك، فإن "سرعة تفكير" الذكاء الاصطناعي لم تعد تُقاس فقط بقدرة وحدات المعالجة على إجراء ضربات مصفوفية ضخمة، بل أصبحت محددة بعمليات رياضية معقدة تُعرف بـ"الدوال التفاضلية" مثل دالة الأس الطبيعي، التي تُعدّ من أبطأ العمليات في دورة المعالجة. في سياق نماذج الذكاء الاصطناعي، تُستخدم دالة softmax لتحويل النقاط الناتجة عن ضربات الاستعلام والمرجع إلى احتمالات مُعدّلة تُsume إلى واحد، وهي خطوة حاسمة في تحديد "نطاق الانتباه" للنموذج. لكن هذه الدالة تعتمد على دالة الأس، التي تُنفّذ على وحدات خاصة تُسمى وحدات الدوال الخاصة (SFUs)، وليس على وحدات المصفوفات (Tensor Cores)، مما يخلق توقفًا في سير العمل (pipeline stall)، حيث تبقى وحدات المصفوفات غير مستخدمة أثناء انتظار انتهاء العمليات التفاضلية. في معمارية NVIDIA Blackwell Ultra، تم تضخيم أداء وحدات SFUs بنسبة 100% مقارنةً بـBlackwell العادي، مما يُقلّل بشكل كبير من زمن تنفيذ دالة الأس (MUFU.EX2)، ويعزز كفاءة دورة الانتباه. هذا التحسين يُحدث فرقًا كبيرًا في النماذج التي تعتمد على سياقات طويلة، حيث يُصبح حساب مصفوفة انتباه بحجم 8192 × 8192 مرهقًا جدًا بسبب النمو التربيعي في عدد العمليات. في معمارية Blackwell العادية، يُظهر التسلسل الزمني لدورة الانتباه توقفًا واضحًا بين مرحلتي ضرب المصفوفات (BMM1 وBMM2)، لأن BMM2 لا يمكنها البدء حتى تنتهي عملية التطبيع (softmax). أما في Blackwell Ultra، فإن تضاعف سرعة وحدات SFU يُقلّل زمن softmax بنسبة تقارب 50%، مما يُقلّل الفجوة بين المراحل، ويسمح لوحدات المصفوفات بالعمل بشكل متواصل، ويُحسّن كفاءة الاستخدام العام للموارد. تم التحقق من هذه النتائج عبر معيار تجريبي مخصص يُركّز فقط على تعليمات MUFU.EX2، حيث أظهرت النتائج أن أداء GB300 (Blackwell Ultra) يُضاعف أداء GB200 في جميع أنواع البيانات، بما يتوافق مع التوقعات. في تجربة على نموذج GQA باستخدام الدقة FP8، سجّل GB300 زيادة بنسبة 35% في أداء التمرير الأمامي (FPROP)، وهو ما يُبرز أهمية تسريع العمليات غير الخطية عندما تكون العمليات الخطية (مثل ضرب المصفوفات) بالفعل سريعة جدًا. هذا التحسين لا يقتصر على التسارع فقط، بل يُعدّ جزءًا من تصميم هاردوير-برمجيات متكامل، حيث تُعزز تقنيات مثل تحسينات cuDNN ودعم TRT-LLM في مكتبات NVIDIA لتسريع دورة الانتباه بالكامل. يُظهر هذا التطور أن التقدم في أداء النماذج الحديثة لا يعتمد فقط على تحسين وحدات المصفوفات، بل على توازن أداء جميع وحدات المعالجة، بما في ذلك تلك التي تُنفّذ العمليات التفاضلية المعقدة. بفضل هذا التحسين، أصبحت معمارية Blackwell Ultra قادرة على التعامل مع السياقات الطويلة دون تأخير كبير، مما يُمكّن من تطوير نماذج أكثر ذكاءً وسرعة، خاصة في التطبيقات التي تتطلب فهمًا عميقًا للسياق، مثل الترجمة المتقدمة، التلخيص، والتفاعل الطبيعي مع المستخدمين.
