HyperAI
Back to Headlines

cuBLAS 12.9 من NVIDIA يعزز سرعة ومرونة عمليات ضرب المصفوفات في تدريب وإجراء الاستدلال على النماذج اللغوية الكبرى

منذ 2 أشهر

تحسين سرعة ومرنة عمليات ضرب المصفوفات باستخدام NVIDIA cuBLAS 12.9 تعد مكتبات NVIDIA CUDA-X الرياضية أدوات قوية تمكن المطورين من بناء تطبيقات مسرعة للذكاء الاصطناعي وحوسبة العلوم ومعالجة البيانات وغيرها. من بين التطبيقات الأكثر أهمية لهذه المكتبات هي تدريب وتنفيذ نماذج اللغات الكبيرة (LLMs)، سواء في التطبيقات الاستهلاكية اليومية أو المجالات العلمية المتخصصة مثل اكتشاف الأدوية. cuBLAS هي إحدى مكتبات CUDA-X التي توفر كيرنالات محسنة للغاية لأداء أبسط المهام الجبرية الخطية، مثل ضرب المصفوفات (matmuls)، والتي تعتبر حاسمة لتدريب وتنفيذ نماذج اللغات الكبيرة. مع إصدار cuBLAS 12.9 الجديد في حزمة NVIDIA CUDA Toolkit، تم إضافة ميزات جديدة تحسن أداء ضرب المصفوفات وتزيد من المرونة في الموازنة بين الدقة وكفاءة الطاقة من خلال ضبط دقة النقطة العائمة واستخدام تقنيات التقليد (emulation). ميزات cuBLAS 12.9 ضرب المصفوفات بدرجة دقة FP8 على NVIDIA Hopper: الترقيم القناة والمكعب: الترقيم هو أساسي للحفاظ على الدقة عند أداء ضرب المصفوفات باستخدام أنواع بيانات ضيقة (مثل FP8). الإصدارات السابقة من cuBLAS سمحت بالترقيم الواسع للمATIC (ترقيم عامل واحد لكل MATIC) على معالجي NVIDIA Hopper وAda. الآن، cuBLAS 12.9 يسمح بمزيد من المرونة عبر عدة خطط ترقيم جديدة على معالج Hopper. الترقيم الخارجي للقناة: يمكن تطبيق عامل ترقيم واحد على صفوف الفرد A[MxK] أو أعمدة الفرد B[KxN]. الترقيم المكعب: يتم تطبيق عامل ترقيم على كل مكعب من 128 عنصرًا في البعد K، أو مكعب من 128×128 في الفرد A وB. تحسينات الأداء: يمكن أن توفر هذه الخطط الجديدة للترقيم سرعة تصل إلى 1.75 مرة أسرع، وفي جميع الحالات باستثناء واحدة، تقدم هذه الخطط سرعة تزيد عن 1.25 مرة مقارنة بخط الأساس BF16. ضرب المصفوفات المكعب-مقياس بدرجة دقة FP4 وFP8 على NVIDIA Blackwell: دعم دقائق بيانات مكعب-مقياس: معالجات NVIDIA Blackwell Tensor Cores تقدم دعمًا أصليًا لأنواع بيانات FP4 وFP8 بمقياس دقيق أكثر، مما يوفر توازنًا جديدًا بين الدقة وكمية العمل. هذه الطريقة تسمح بتمثيل أكثر دقة للقيم داخل كل مكعب، مما يؤدي إلى تحسين الدقة العامة مقارنة باستخدام عامل ترقيم عالمي واحد. حساب عوامل الترقيم: بفضل حجم المكعب الصغير، يمكن لمكتبة cuBLAS حساب عوامل الترقيم للفرد D (scaleD) عند تكون النتيجة بدرجة دقة FP4 أو FP8، مما يزيل الحاجة لتقدير عامل الترقيم أو إجراء مرور إضافي على البيانات قبل التحويل، وهو أمر ضروري في الترقيم الواسع للمATIC. أداء ضرب المصفوفات على معالجات NVIDIA Blackwell: تحسينات أداء: مع الأنواع الجديدة للبيانات، وأدوات التشغيل في الوقت الحقيقي، وتحسينات الكيرنالات المتاحة في cuBLAS 12.9، يمكن للمستخدمين الاستفادة من الأداء الرائع لمعالجات Blackwell. أداء محاكاة: يظهر الشكل 3 أحدث أداء متاح في cuBLAS لدقة مختلفة، مقارنة بين NVIDIA B200 وGB200 وH200. في حالة الفرد المستهلكة للحسابات، يكون ضرب المصفوفات المكعب-مقياس بدرجة دقة FP4 أسرع 4.6 مرة على GB200 مقارنة بخط الأساس FP8 على H200، حيث يصل الأداء إلى 6787 تيرافلوب/ثانية. تحسينات في مجموعة البيانات الحقيقية: تؤدي هندسة Blackwell أيضًا إلى أداء جيد في مجموعات البيانات الحقيقية التي تتكون من أشكال وأحجام المصفوفات التي تهيمن على مهمات تدريب وتنفيذ نماذج اللغات الكبيرة (الشكل 4)، حيث يتم تحقيق سرعة تصل إلى 1.7 مرة وأكثر من 2.2 مرة مقارنة بخطوط الأساس H200 باستخدام أنواع بيانات BF16 وFP8 (B200 وGB200). تسريع ضرب المصفوفات بدرجة دقة FP32 باستخدام معالجات النقطة العائمة BF16 على Blackwell: المحاكاة لتحسين الأداء: بالإضافة إلى الأداء المثير للإعجاب الذي توفره cuBLAS بالفعل على معالجات Blackwell، فإنها تقدم ميزة تمكن المستخدمين من الاشتراك في المحاكاة للحصول على ضرب مصفوفات FP32 أسرع وكفاءة طاقة أفضل. تحسينات الأداء: يظهر الشكل 5 أداء المحاكاة FP32 المتاح على معالج B200 مقارنة بالأداء الأصلي FP32 على معالجي B200 وH200. في الحالة الأكبر (M=N=K=32,768)، تحقق المحاكاة ما بين 3 إلى 4 مرات أكثر من تيرافلوب/ثانية مقارنة بالأداء الأصلي FP32 على B200 أو H200. تقييم الحدث من قبل المختصين يشهد الخبراء في مجال الحوسبة العلمية والتكنولوجيا على أن cuBLAS 12.9 يوفر تحسينات كبيرة في الأداء ويزيد من المرونة في التعامل مع متطلبات الدقة والكفاءة الطاقية. هذه التحسينات تعد خطوة مهمة نحو تحسين كفاءة التطبيقات المتسارعة، خاصة في مجالات الذكاء الاصطناعي وحوسبة العلوم. نبذة تعريفية عن NVIDIA NVIDIA هي شركة رائدة في مجال تطوير تقنيات الحوسبة المرئية والذكاء الاصطناعي. تشتهر بتطوير بطاقات الرسومات (GPUs) والمعالجات المتخصصة (Tensor Cores) التي تُستخدم في مجموعة واسعة من التطبيقات، من الألعاب الإلكترونية إلى الحوسبة السحابية والبحث العلمي. من خلال مكتبات CUDA-X مثل cuBLAS، تسعى NVIDIA إلى توفير أدوات قوية تسهل على المطورين بناء تطبيقات عالية الأداء وكفاءة الطاقة.

Related Links