HyperAIHyperAI

Command Palette

Search for a command to run...

EnergAIzer، وهو إطار عمل لتقدير طاقة وحدة معالجة الرسومات تم تطويره بواسطة معهد ماساتشوستس للتكنولوجيا وآخرين، يكمل التنبؤات في متوسط 1.8 ثانية مع خطأ يبلغ حوالي 81 TP3T.

Featured Image

وفقًا لتقديرات مختبر لورانس بيركلي الوطني، ونظرًا للنمو الهائل للذكاء الاصطناعي،بحلول عام 2028، ستستهلك مراكز البيانات 121 تيرابايت من إجمالي الكهرباء المستخدمة في الولايات المتحدة.باعتبارها المُسرِّع الرئيسي لأحمال عمل الذكاء الاصطناعي، أصبحت وحدات معالجة الرسومات (GPUs) مصدرًا رئيسيًا لاستهلاك الطاقة، حيث تصل طاقة التصميم الحراري (TDP) إلى 700 واط و1200 واط على التوالي في أحدث وحدات NVIDIA H100 وGB200. في ظل تحديات الطاقة المتزايدة الحدة،أصبح التقدير السريع لقوة وحدة معالجة الرسومات واستهلاك الطاقة لأحمال عمل الذكاء الاصطناعي أمرًا بالغ الأهمية.

تتطلب نماذج استهلاك الطاقة عادةً معلومات عن استخدام الأجهزة كمدخلات لتحديد كثافة استخدام وحدات معالجة الرسومات المختلفة (مثل ذاكرة الوصول العشوائي الديناميكية ووحدات Tensor Cores)، حيث يتناسب استهلاك الطاقة الديناميكي طرديًا مع نشاط الوحدة. وتحصل الطرق الحالية على هذه المعلومات بشكل أساسي من خلال نهجين: الأول هو استخدام محاكيات على مستوى التعليمات لاستنتاج استخدام الوحدة عن طريق محاكاة دورة تنفيذ وحدة معالجة الرسومات دورةً تلو الأخرى.ومع ذلك، حتى بالنسبة لأحمال العمل متوسطة الحجم، يمكن أن تستغرق عمليات المحاكاة التفصيلية هذه عدة ساعات.أما الثاني فهو تحليل أداء وقت التشغيل (التنميط).ومع ذلك، فإن هذا لا يؤدي فقط إلى زيادة تكاليف التحليل، بل يعتمد أيضًا على موارد الأجهزة المتاحة.

في هذا السياققام باحثون من معهد ماساتشوستس للتكنولوجيا ومختبر الذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا وشركة آي بي إم واتسون ببناء EnergAIzer، وهو إطار عمل سريع لتقدير طاقة وحدة معالجة الرسومات لأحمال عمل الذكاء الاصطناعي.يمكن توفير معلومات استخدام الأجهزة مباشرة لنماذج استهلاك الطاقة دون الحاجة إلى عمليات محاكاة مكلفة أو تحليل الأداء.يمكن لهذا الإطار الجديد إكمال تقدير استهلاك الطاقة من البداية إلى النهاية في متوسط 1.8 ثانية فقط.على وحدات معالجة الرسومات NVIDIA Ampere، حقق EnergAIzer خطأ في استهلاك الطاقة يبلغ حوالي 81 TP3T، وهو ما ينافس النماذج التقليدية التي تعتمد على عمليات المحاكاة الدورية المعقدة أو تحليل أداء الأجهزة.

كما أظهر الباحثون قدرات برنامج EnergAIzer في تغيير ترددات الطاقة واستكشاف تكوين البنية.وبإضافة التنبؤ باستهلاك الطاقة لبطاقة NVIDIA H100، فإن الخطأ هو 7% فقط.بشكل عام، يوفر برنامج EnergAIzer إمكانيات سريعة ودقيقة للتنبؤ باستهلاك الطاقة لأحمال عمل الذكاء الاصطناعي. ويمكن لمشغلي مراكز البيانات استخدام هذه التقديرات لتخصيص الموارد المحدودة بكفاءة بين نماذج ومعالجات الذكاء الاصطناعي المتعددة، مما يحسن كفاءة استهلاك الطاقة.

تم نشر نتائج البحث ذات الصلة، بعنوان "EnergAIzer: إطار عمل سريع ودقيق لتقدير طاقة وحدة معالجة الرسومات لأحمال عمل الذكاء الاصطناعي"، كنسخة أولية على arXiv.

أبرز الأبحاث:

* يقوم الإطار الجديد بتوليد تقديرات موثوقة لاستهلاك الطاقة في ثوانٍ معدودة، في حين أن تقنيات النمذجة التقليدية قد تستغرق ساعات أو حتى أيامًا لإنتاج النتائج.

* يمكن تطبيق أداة التنبؤ الجديدة على مجموعة واسعة من تكوينات الأجهزة، بما في ذلك حتى التصاميم الناشئة التي لم يتم نشرها بعد.

تساعد هذه الأداة مطوري الخوارزميات ومقدمي النماذج على تقييم استهلاك الطاقة المحتمل للنماذج الجديدة قبل نشرها.


عنوان الورقة:
https://arxiv.org/abs/2604.20105
تابع حسابنا الرسمي على WeChat وأجب بكلمة "توقع استهلاك الطاقة" في الخلفية للحصول على ملف PDF كامل.

مجموعة البيانات: تغطي أنواعًا مختلفة من المؤثرات الرئيسية وأشكال الموترات

في جميع التجارب،قام الباحثون ببناء قواعد بيانات النواة غير المتصلة بالإنترنت استنادًا إلى NVIDIA A100-40GB-PCIE و A10 GPU.يغطي الجدول أدناه أنواعًا مختلفة من المشغلات الرئيسية وأشكال الموترات لتدريب EnergAIzer، انظر الجدول أدناه لمزيد من التفاصيل:

قاعدة بيانات غير متصلة بالإنترنت للتجارب

يشمل:

* حسابات المصفوفات من نوع GEMM

* الالتفاف

* غير خطي

* على مستوى العناصر

* تنبيه سريع

قدّم الباحثون موارد تجريبية لمشروع EnergAIzer.يشمل ذلك شفرة المصدر لإطار التقدير، وقاعدة بيانات مجمعة مسبقًا للمطابقة التجريبية، وبيانات قياس حقيقية للتحقق من صحة التنبؤات.وتشمل مواردها نصوصًا لإعادة إنتاج التجارب، وتوليد تقديرات الطاقة وزمن الاستجابة على مستوى النواة الواحدة، وتقديرات شاملة لأحمال عمل الذكاء الاصطناعي.

ثلاث خطوات لبناء نموذج التنبؤ على مستوى النواة EnergAIzer

يكمن جوهر ENERGAIZER في نموذج تنبؤ على مستوى النواة، والذي يقوم الباحثون ببنائه من خلال ثلاث خطوات.أولاً،إن إنشاء تمثيلات لأعباء العمل، مثل استراتيجيات تحسين البرامج مثل التجانب وجدولة كتل الخيوط والخطوط المتوازية، سيؤدي إلى تشكيل أنماط تنفيذ منظمة تشكل أساس نماذج الأداء.ثانيًا،قم ببناء نماذج الأداء وقم بملاءمة البيانات التجريبية باستخدام هذه الأنماط كأطر أساسية؛أخيرا،يستخدم نموذج استهلاك الطاقة معدل الاستخدام المتوقع لتقدير استهلاك الطاقة الديناميكي.

نظرة عامة على إطار عمل التنبؤ على مستوى النواة الخاص بـ EnergAIzer

طبقة نمذجة هيكل عبء العمل

استراتيجية التحسين
تُقسّم الموترات هرميًا إلى مربعات بيانات على مستويات تنفيذ مختلفة في وحدة معالجة الرسومات. تعمل تقنية تبديل كتل الخيوط على جدولة كتل الخيوط التي تصل إلى نفس مربع الإدخال إلى موترات متجاورة، مما يُحسّن إعادة استخدام ذاكرة التخزين المؤقت من المستوى الثاني. يتداخل نقل البيانات والحساب في عمليات تكرار زمنية باستخدام تقنية خطوط الأنابيب البرمجية. يحدد هيكل خطوط الأنابيب زمن الاستجابة الفعلي، وهو عامل أساسي في نمذجة الأداء.

ما وراء GEMM
وبناءً على ذلك، قام الباحثون بتوسيع التحليل بشكل منهجي ليشمل جميع أنواع النوى الرئيسية في الذكاء الاصطناعي (بما في ذلك النوى غير الخطية، والنوى العنصرية، ونوى الاندماج) بهدف استخلاص استخدام على مستوى الوحدة لنمذجة طاقة الخدمة.

يؤكد
باستخدام أساليب تحليلية، استنتج الباحثون إجمالي حركة البيانات للذاكرة المشتركة، وذاكرة التخزين المؤقت من المستوى الثاني، وذاكرة الوصول العشوائي الديناميكية (DRAM)، وقارنوها ببيانات عدادات الأجهزة التي تم الحصول عليها من خلال تحليل أداء وحدة التحكم في الشبكة (NCU) على وحدة معالجة الرسومات NVIDIA A100-40GB-PCIE. وقد لوحظت ارتباطات شبه تامة عبر أكثر من 790 نواة GEMM، و70 نواة Softmax، وأكثر من 380 نواة FlashAttention، مما يؤكد أن معلمات الكتل وإعادة ترتيب كتل الخيوط المثالية تحدد حركة البيانات في الذاكرة.

طبقة نموذج الأداء

بناء الجدول الزمني
يُنشئ نموذج الأداء مخططًا زمنيًا للتنفيذ يتألف من عمليات عامة. يحدد الميل مستوى تفصيل العمليات (مثل تحميل/تخزين البيانات، وعدد تعليمات الحساب)، بينما يحدد التداخل كيفية تداخل هذه العمليات بناءً على التبعيات. يشكل هذا المخطط الزمني الإطار التحليلي ويُستخدم للكشف عن استخدام مستوى الوحدة، كما هو موضح في الشكل أدناه:

(أ) مخططات زمنية لنوى GEMM، (ب) نواة Softmax، و(ج) نواة FlashAttention

التنبؤ المتأخر
بعد تحديد هيكل الجدول الزمني، يتم وصف طريقة حساب زمن استجابة كل عملية؛ بعد ذلك، يتم دمج زمن استجابة هذه العمليات الفردية في وقت التنفيذ الإجمالي، مما يعكس تأثير خط الأنابيب.

اشتقاق الاستخدام
استنادًا إلى الجدول الزمني للبناء، تم استخراج معدلات استخدام ست وحدات رئيسية: ذاكرة الوصول العشوائي الديناميكية (DRAM)، وذاكرة التخزين المؤقت من المستوى الثاني (L2 cache)، والذاكرة المشتركة، ووحدات معالجة Tensor، ووحدات معالجة CUDA (لعمليات الفاصلة العائمة العادية)، ووحدات الوظائف الخاصة (للوظائف الأسية وغيرها من الوظائف غير الخطية). وتم تعريف معدل استخدام كل وحدة على أنه نسبة وقت تشغيلها إلى إجمالي وقت تنفيذ النواة.

طبقة نموذج استهلاك الطاقة

استنادًا إلى معدل استخدام الطاقة على مستوى الوحدة، والمستمد من نموذج الأداء، قدّر الباحثون هذا المعدل باستخدام صيغة قياسية لاستهلاك الطاقة الديناميكي. تتوافق هذه الطريقة شكليًا مع نماذج استهلاك الطاقة التقليدية، لكن الاختلاف الرئيسي يكمن في كيفية حساب معامل الاستخدام α. ولأن قاعدة البيانات غير المتصلة بالإنترنت تغطي قياسات استهلاك الطاقة عند ترددات تشغيل متعددة، يتم ضبط معامل C لتقليل الخطأ عبر نطاق التردد بأكمله، مما يدعم تقدير استهلاك الطاقة عند أي تردد دون الحاجة إلى قياسات إضافية خلال مرحلة الاستدلال.

في المتوسط، يستغرق الأمر 1.8 ثانية فقط لكل عبء عمل لإكمال التقدير المشترك لزمن الاستجابة واستهلاك الطاقة.

قام الباحثون بتقييم القدرة التنبؤية لبرنامج EnergAIzer وتطبيقه في استكشاف خيارات التصميم المختلفة من خلال التجارب العملية:

دقة تقدير زمن الاستجابة واستهلاك الطاقة لأحمال عمل الذكاء الاصطناعي

يوضح الشكل أدناه نتائج تقدير زمن الاستجابة واستهلاك الطاقة من البداية إلى النهاية لنماذج لغوية مختلفة (BERT-Large، GPT-2، OPT-1.3B، Qwen2-1.5B) ونماذج بصرية (ResNet101، ViT، MobileViT):

أخطاء تقدير زمن الاستجابة واستهلاك الطاقة من البداية إلى النهاية على وحدة معالجة الرسومات NVIDIA A100-40GB-PCIE و A10 بتردد تشغيل 900 ميجاهرتز

حقق EnergAIzer متوسط خطأ في زمن الاستجابة قدره 11.01 TP3T وخطأ في استهلاك الطاقة قدره 8.01 TP3T على وحدة معالجة الرسومات من فئة الخادم (A100-40GB-PCIE).على وحدة معالجة الرسومات من فئة محطة العمل (A10)، تبلغ قيمها 8.8% و 8.2% على التوالي.تُحسب هذه النتائج كمعدل لجميع أحمال العمل. وفيما يتعلق بتوقع زمن الاستجابة، يُنافس برنامج EnergAIzer أحدث نماذج الأداء الخفيفة (Li et al.، NeuSight)، مع توفيره في الوقت نفسه إمكانيات تقدير استهلاك الطاقة التي لا تُوفرها هذه النماذج.

يستغرق برنامج EnergAIzer في المتوسط 1.8 ثانية فقط لكل عبء عمل لإكمال تقدير مشترك لزمن الاستجابة واستهلاك الطاقة.بالنسبة لنماذج اللغة، تستغرق عملية التنبؤ الواحدة ما بين 1.1 و2.8 ثانية. في المقابل، يستغرق الحصول على عداد الأجهزة باستخدام وحدة التحكم عن بُعد (NCU) ما بين 452 و8192 ثانية، مما يحقق تسارعًا يتراوح بين 317 و3856 ضعفًا.

استكشف تنظيم الجهد والتردد

يُعدّ تنظيم الجهد والتردد تقنية شائعة لإدارة الطاقة، ويمكن الاستفادة منها من خلال التنبؤ الدقيق باستهلاك الطاقة عند نقاط التشغيل المختلفة. قيّم الباحثون قدرة برنامج EnergAIzer على تقدير استهلاك الطاقة عند ترددات مختلفة (510-1410 ميجاهرتز) على شريحة A100-40GB-PCIE. في التجارب، تم تعديل معلمات إدخال تكوين الطاقة لبرنامج EnergAIzer فقط، بما في ذلك التردد المستهدف والجهد واستهلاك الطاقة في وضع الخمول عند ذلك التردد. يوضح الشكل التالي مقارنة بين القيم المقاسة فعليًا واستهلاك الطاقة المتوقع:

تقديرات استهلاك الطاقة لنطاق تردد A100-40GB-PCIe من 510 إلى 1410 ميجاهرتز

يمكن لإطار عمل EnergAIzer التقاط سلوكيات التوسع النموذجية لأنواع أحمال العمل المختلفة: أحمال العمل منخفضة الاستخدام (دفعة/تسلسل صغير، الشكل الأيسر) وأحمال العمل المقيدة بالطاقة (دفعة/تسلسل كبير، الشكل الأيمن).متوسط الخطأ المطلق النسبي (MAPE) عند الترددات المختلفة هو 6%–9%.

استكشاف تكوين بنية وحدة معالجة الرسومات

يدعم هذا الإطار أيضًا استكشاف تكوينات معمارية مختلفة لوحدة معالجة الرسومات عن طريق ضبط معلمات معمارية وحدة معالجة الرسومات (مثل عدد وحدات المعالجة المتعددة، وعرض نطاق الذاكرة، وإنتاجية الحوسبة) كمدخلات.يُتيح ذلك التنبؤ باستهلاك الطاقة للبنية الجديدة دون الحاجة إلى جمع بيانات الأجهزة المستهدفة. قيّم الباحثون سيناريوهين: الاستكشاف ضمن نفس جيل بنية وحدة معالجة الرسومات، والاستكشاف عبر أجيال البنية المختلفة. يُلخص الجدول أدناه تكوينات وحدة معالجة الرسومات المستهدفة:

خطأ تقدير الطاقة عند إجراء التنبؤات لتكوينات وحدة معالجة الرسومات الجديدة

أولًا، ضمن بنية أمبير، استخدم الباحثون قاعدة بيانات مُجمّعة من A100-40GB-PCIE فقط للتنبؤ باستهلاك الطاقة لـ A100-80GB-SXM، بمتوسط خطأ قدره 9.11 TP3T. ثانيًا، في سيناريوهات الأجيال المختلفة، أسفر استخدام قاعدة بيانات بنية أمبير للتنبؤ باستهلاك الطاقة لـ Hopper (H100) و Lovelace (L40S) عن أخطاء بلغت 6.71 TP3T و 12.71 TP3T على التوالي.

بشكل عام، يوفر برنامج EnergAIzer تنبؤًا سريعًا ودقيقًا باستهلاك الطاقة لأحمال عمل الذكاء الاصطناعي.

خاتمة

بالنسبة لمشغلي مراكز البيانات، يُتيح EnergAIzer تقييمًا سريعًا لأداء استهلاك الطاقة لمختلف تكوينات وحدات معالجة الرسومات، واستراتيجيات التردد، وخطط جدولة الموارد، مما يدعم إدارةً أكثر دقةً للموارد وتحسين كفاءة الطاقة. أما بالنسبة لمطوري نماذج الذكاء الاصطناعي، فيوفر هذا الإطار أداةً جديدةً "مُدركةً للأجهزة". خلال مرحلة تصميم النموذج، يُمكن تقييم المفاضلات بين الأداء واستهلاك الطاقة الناتجة عن دقة مختلفة وتطبيقات المشغلين، وبالتالي تجنب ظهور مشكلات استهلاك الطاقة فقط أثناء النشر.

بالطبع، لا يزال الإطار الحالي يعاني من بعض القيود، كالحاجة إلى تحسين قدراته في نمذجة الحوسبة التعاونية متعددة وحدات معالجة الرسومات، وزيادة عبء الاتصال، والحوسبة المتفرقة غير المنتظمة. مع ذلك، ومن منظور منهجي، أظهر EnergAIzer اتجاهًا واضحًا: إذ تتطور نمذجة استهلاك طاقة وحدات معالجة الرسومات من أداة تحليل غير متصلة بالإنترنت تعتمد بشكل كبير على القياس، إلى قدرة اتخاذ قرارات فورية سهلة الاستخدام وقابلة للتضمين. في ظل التوسع المستمر لقدرات الحوسبة في مجال الذكاء الاصطناعي وتزايد قيود الطاقة، تتضاعف قيمة هذا النوع من التكنولوجيا بسرعة. في المستقبل، ومع ازدياد تعقيد النماذج وتنوع الأجهزة، من المرجح أن تصبح أطر عمل مثل EnergAIzer أكثر من مجرد أدوات بحثية؛ بل قد تصبح جزءًا لا غنى عنه من بنية الذكاء الاصطناعي التحتية.

مراجع
https://news.mit.edu/2026/faster-way-to-estimate-ai-power-consumption-0427
https://arxiv.org/pdf/2604.20105