نيفيا تُعلن عن منصة جديدة لرصد أسطول بطاقات GPU بذكاء اصطناعي تُتيح تتبع المواقع الجغرافية وتحسين كفاءة المراكز الحاسوبية أعلنت شركة نيفيا، في أحدث تطوراتها، عن منصة برمجية متطورة لرصد و إدارة أسطول بطاقات GPU في مراكز البيانات، تُتيح تتبع المواقع الجغرافية للوحدات، وجمع بيانات دقيقة حول استهلاك الطاقة ودرجة الحرارة وحالة الأداء. ورغم أن النظام مبني على مبدأ الموافقة (opt-in)، فإن ميزاته تُعد خطوة كبيرة نحو تحسين كفاءة وسلامة مراكز الحوسبة المخصصة للذكاء الاصطناعي. وتمكّن المنصة، التي تُدار عبر منصة NGC الخاصة بنيفيا، مدراء مراكز البيانات من مراقبة أداء أسطول GPU في الوقت الفعلي، سواء على مستوى العالم أو ضمن مناطق حسابية محددة، ما يسمح بتحديد المواقع الفعلية للوحدات. وتوفر الواجهة المركّزة ملخصات جماعية، وتمكّن من التعمق في تفاصيل كل مجموعة، إضافة إلى إنشاء تقارير منظمة تشمل بيانات المخزون وحالة الأداء الشاملة. ومن أبرز ميزات النظام مراقبة استهلاك الطاقة بدقة، بما في ذلك التقلبات القصيرة، مما يساعد المُشغلين على الالتزام بحدود الطاقة المحددة. كما يُراقب النظام استخدام وحدة المعالجة، وعرض نطاق الذاكرة، وحالة الاتصالات بين الوحدات، ما يسهم في الكشف عن توازن غير متساوٍ في الأحمال، أو ازدحام في عرض النطاق، أو مشاكل في الاتصالات التي قد تؤدي إلى تدهور الأداء. وأشارت نيفيا إلى أن النظام يُعد مبادرة لتحسين إدارة الحرارة وتدفق الهواء، من خلال اكتشاف مناطق السخونة المبكرة وضيق التدفق، ما يمنع التثبيط الحراري (thermal throttling) وتمديد عمر المكونات في البيئات عالية الكثافة. كما يضمن النظام مطابقة بيئة التشغيل بين العقد، من خلال التحقق من تطابق مكدسات البرامج والإعدادات، وهو أمر حاسم لضمان تدريب نماذج ذكاء اصطناعي متسق وقابل للتكرار. أي تباين في المُثبّتات أو الإعدادات يُظهر بشكل فوري في الواجهة. ومن المهم التأكيد أن هذه المنصة ليست الأداة الوحيدة التي تقدمها نيفيا لرصد وتحكم في GPU، لكنها الأحدث والأكثر تطوراً. فنظام DCGM يُقدّم بيانات فنية خام على مستوى العقد، لكنه يتطلب من المُشغلين بناء واجهات مخصصة، ما يحد من سهولة الاستخدام. أما Base Command، فهو بيئة لتنظيم مهام تطوير الذكاء الاصطناعي، وجدولة المهام، وإدارة المجموعات، لكنه لا يركّز على المراقبة المعمّقة للهاردوير. بالتوازي، تُمكّن هذه الأدوات الثلاثة من تكوين نموذج متكامل لتحكم مركزي في مراكز الحوسبة: DCGM للكشف الدقيق، Base Command لإدارة المهام، والمنصة الجديدة لرؤية شاملة على مستوى الأسطول، حتى في التوزيعات الجغرافية المتنوّعة. رغم أن النظام مبني على مبدأ الموافقة، ما قد يحد من فعاليته في مواجهة تهريب الشرائح — خاصة من قبل جهات وطنية — إلا أنه يُعد خطوة مهمة نحو تطوير مراكز بيانات ذكية، وآمنة، وفعّالة، تُناسب متطلبات عصر الذكاء الاصطناعي.
أعلنت شركة نفيديا عن تفاصيل برنامج جديد لإدارة أسطول وحدات معالجة الذكاء الاصطناعي (GPU) في المراكز الحاسوبية، يتيح مراقبة متعددة الجوانب لأداء هذه الوحدات، بما في ذلك تحديد موقعها الجغرافي الفعلي. يُعد هذا النظام جزءًا من جهود الشركة لتعزيز كفاءة وموثوقية البنية التحتية الحاسوبية في بيئات الذكاء الاصطناعي، لكنه يعتمد على التصريح الصريح من المستخدمين، ما يحد من فعاليته كأداة رادعة ضد تهريب الرقائق. يجمع البرنامج بيانات تليميترية مفصلة من أجهزة GPU، ثم تُجمَع في لوحة تحكم مركزية مُضمنة ضمن منصة NGC الخاصة بنفيديا. تتيح هذه الواجهة للمشغلين رؤية شاملة وحية لحالة أسطولهم من وحدات المعالجة، سواء على مستوى العالم أو ضمن مناطق حسابية محددة، مثل مراكز بيانات موزعة جغرافيًا. يمكن للمستخدمين تحليل الأداء على مستوى الأسطول، أو التعمق في تفاصيل مجموعات معينة، وتصدير تقارير منظمة تتضمن بيانات المخزون وحالة النظام العامة. من بين الميزات الرئيسية، مراقبة استهلاك الطاقة بدقة، بما في ذلك الذروات القصيرة التي قد تؤدي إلى تجاوز الحدود المسموحة. كما يراقب النظام استخدام وحدة المعالجة، وعرض نطاق الذاكرة، وحالة الاتصالات بين الوحدات، مما يساعد في كشف التوازن غير المتكافئ في الأحمال، أو ازدحام الشبكات، أو مشاكل في الروابط، التي قد تؤثر سلبًا على الأداء في مجموعات الذكاء الاصطناعي الكبيرة. يُركّز البرنامج أيضًا على مراقبة درجات الحرارة وتدفق الهواء، لتفادي التثبيط الحراري (Thermal Throttling) والتآكل المبكر للمكونات، وهو أمر بالغ الأهمية في البيئات ذات الكثافة العالية. من خلال اكتشاف مناطق السخونة أو تدفق هواء غير كافٍ مبكرًا، يمكن للمشغلين اتخاذ إجراءات وقائية لضمان الأداء المستقر وتمديد عمر المعدات. كما يتحقق النظام من توافق بيئة التشغيل بين العقد، مثل تطابق إصدارات البرامج الثابتة (Drivers) والإعدادات، وهو أمر حاسم لضمان تكرار النتائج وموثوقية تدريب النماذج. أي اختلاف في التكوين يظهر فورًا في النظام، مما يسهل التصحيح السريع. من المهم التوضيح أن هذا النظام ليس الأداة الوحيدة التي تقدمها نفيديا لمراقبة وحدات المعالجة. فهناك DCGM، أداة محلية لجمع بيانات الصحة الفنية، لكنها تتطلب من المشغلين بناء لوحات تحكم وتصنيف بيانات يدويًا، ما يقلل من سهولة الاستخدام لكنه يمنح مرونة أكبر. كما توجد Base Command، منصة لإدارة مهام تطوير الذكاء الاصطناعي، لكنها لا تركز على المراقبة المعمقة للعتاد. بالتجميع بين هذه الأدوات، تقدم نفيديا حزمة قوية من الأدوات، حيث تُقدّم DCGM رؤية على مستوى العقد، وBase Command إدارة المهام، بينما يُعد البرنامج الجديد منصة متكاملة لرؤية شاملة على مستوى الأسطول، مُصممة للاستخدام في بيئات موزعة جغرافيًا. رغم ميزاته المتطورة، فإن طبيعة النظام "الاختيارية" تُحد من قدرته كأداة رقابية فعّالة ضد تهريب المعدات، سواء من قبل جهات حكومية أو عصابات تجارية.
