CUDA-L2: التفوق على أداء cuBLAS في ضرب المصفوفات من خلال التعلم المعزز
CUDA-L2: التفوق على أداء cuBLAS في ضرب المصفوفات من خلال التعلم المعزز

الملخص
في هذه الورقة، نقترح نظام CUDA-L2، الذي يجمع بين النماذج اللغوية الكبيرة (LLMs) والتعلم المعزز (RL) بهدف تحسين تلقائي للكيرنلز CUDA الخاصة بعمليات ضرب المصفوفات العامة بدقة نصفية (HGEMM). وباستخدام سرعة تنفيذ CUDA كمُكافأة في التعلم المعزز، يتمكّن CUDA-L2 من تحسين كيرنلز HGEMM تلقائيًا عبر 1000 تهيئة ممكنة. ويتفوّق CUDA-L2 بشكل منهجي على أبرز النماذج الأساسية لعمليات ضرب المصفوفات حتى الآن، بدءًا من المكتبة الشهيرة المتوفرة على هذا الرابط http://...، ووصولًا إلى المكتبات المتطورة المغلقة المصدر من نيفيديا، مثل cuBLAS وcuBLASLt. في الوضع غير المتزامن (offline)، حيث تُنفَّذ الكيرنلز بشكل متتالٍ دون فواصل زمنية، يُحقِّق CUDA-L2 مكاسب متوسطة تصل إلى +22.0% مقارنةً بالرابط http://...؛ و+19.2% مقارنةً بـ cuBLAS باستخدام التهيئة المثلى (النوع العادي-العادي NN، والمعكوس-العادي TN)؛ و+16.8% مقارنةً بـ cuBLASLt-heuristic، الذي يستخدم استعلامًا لمكتبة cuBLASLt ويختار الخوارزمية بناءً على اقتراح خوارزمية استنتاجية؛ و+11.4% مقارنةً بأقوى النماذج، وهي cuBLASLt-AutoTuning، التي تختار الخوارزمية الأسرع من بين ما يصل إلى 100 اقتراحًا من مكتبة cuBLASLt. وفي الوضع الخادم (server mode)، حيث تُنفَّذ الكيرنلز في فترات عشوائية تُحاكي بيئة الاستدلال في الوقت الفعلي، تزداد المكاسب إلى +28.7% و+26.0% و+22.4% و+15.9% على التوالي، مقارنةً بـ http://..., cuBLAS، cuBLASLt-heuristic، وcuBLASLt-AutoTuning. تُظهر نتائج CUDA-L2 أن حتى أكثر الكيرنلز حساسية للأداء، والمتخصصة بشكل كبير في التحسين، مثل HGEMM، يمكن تحسينها عبر آلية تلقائية مدعومة بالنموذج اللغوي الكبير والتعلم المعزز، وذلك من خلال استكشاف مساحات التهيئة على نطاقات غير قابلة للتحقيق عمليًا من قبل البشر.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.