نVIDIA Run:ai وAmazon SageMaker HyperPod يتعاونان لتحسين إدارة التدريب المعقد للاستدلال الذكي عبر بيئات الهجين
NVIDIA Run:ai و Amazon SageMaker HyperPod: شراكة لتحقيق كفاءة ومرنية تدريب الذكاء الاصطناعي أعلنت شركة NVIDIA وAmazon Web Services (AWS) عن تكامل جديد بين منصة NVIDIA Run:ai وخدمة Amazon SageMaker HyperPod، مما يتيح للمطورين توسيع وإدارة التدريب المعقد للذكاء الاصطناعي بشكل سلس وأكثر كفاءة. ما هو Amazon SageMaker HyperPod؟ يقدم Amazon SageMaker HyperPod بيئة ملتقية ومثالية للتدريب والتوقعات على نطاق كبير. هذه الخدمة تزيل الأعباء الثقيلة المتعلقة بإدارة البنية التحتية للتعلم الآلي وتزيد من كفاءة استخدام الموارد عبر العديد من الوحدات المعالجة الرسومية (GPUs)، مما يقلل بشكل كبير من وقت تدريب النماذج. يمكن لفرق العمل استخدام SageMaker HyperPod لتوسيع مهام التدريب بكفاءة وهي تدعم أي بنية نموذجية. ما هو NVIDIA Run:ai؟ منصة NVIDIA Run:ai تبسط عملية توزيع مهام الذكاء الاصطناعي وإدارة وحدات المعالجة الرسومية عبر بيئات هجينة—من داخل المؤسسات وصولاً إلى السحابات العامة والخاصة—من خلال واجهة واحدة مركزية. هذا النهج المركزي يفيد مديري تقنية المعلومات الذين يشرفون على موارد GPUs في مواقع جغرافية مختلفة، مما يجعل استخدام الموارد على مدى بيئة المؤسسة وAWS Cloud والبيئات الهجينة أكثر فعالية، مع القدرة على التوسع في السحابة عندما يزيد الطلب. كيف يعمل التكامل؟ تم اختبار وتحقق التكامل بين Amazon SageMaker HyperPod وNVIDIA Run:ai بنجاح من قبل الفرق الفنية لكلا الشركتين. هذا التكامل يسمح للمستخدمين بتوظيف مرونة SageMaker HyperPod مع ميزات NVIDIA Run:ai في تحسين أداء GPUs وإدارتها وتنظيم الموارد. المزايا الرئيسية للتكامل: وحدة إدارة موارد GPUs عبر البيئات الهجينة: تقدم NVIDIA Run:ai واجهة تحكم واحدة تمكن الشركات من إدارة موارد GPUs بكفاءة عبر البنية التحتية للمؤسسة وSageMaker HyperPod. يمكن للعلماء تقديم مهامهم عبر الواجهة الرسومية (GUI) أو الواجهة السطرية (CLI) إلى العقد الخاصة بهم سواء كانت داخل المؤسسة أو فيHyperPod. هذا النهج يبسط عملية تنظيم العمل ويتيح للمديرين تخصيص موارد GPUs حسب الطلب مع ضمان الاستخدام الأمثل في كل البيئات. تعزيز المرونة والقابلية للتوسع: مع NVIDIA Run:ai، تستطيع المنظمات توسيع مهام الذكاء الاصطناعي بسهولة من خلال التوسع إلى SageMaker HyperPod عند الحاجة إلى موارد GPUs إضافية. هذا الاستراتيجية السحابية الهجينة يسمح للشركات بالتوسع الديناميكي دون زيادة مفرطة في الأجهزة، مما يقلل من التكاليف ويحافظ على الأداء العالي. كما أن البنية التحتية المرنة لSageMaker HyperPod تدعم التدريب والتوقعات على نطاق كبير، مما يجعلها مثالية للمؤسسات التي ترغب في تدريب أو ضبط نماذج أساسية مثل Llama أو Stable Diffusion. تدريب موزع مقاوم للأعطال: يتيح تكامل NVIDIA Run:ai مع Amazon SageMaker HyperPod إدارة فعالة للتدريب الموزع عبر العقد. تقوم SageMaker HyperPod بمراقبة مستمرة لصحة موارد GPUs وCPUs والشبكات، وتبديل العقد المعيبة تلقائيًا لضمان سلامة النظام. في الوقت نفسه، تقلل NVIDIA Run:ai من وقت التوقف عن العمل عن طريق استئناف المهام المترعة تلقائيًا من آخر نقطة تم حفظها، مما يقلل من الحاجة للتدخل اليدوي ويحد من التكاليف الإضافية. هذا التعاون يساعد في الحفاظ على مشاريع الذكاء الاصطناعي للمؤسسات على المسار الصحيح حتى في وجود مشكلات في الأجهزة أو الشبكة. تحسين استخدام الموارد: تضمن قدرات NVIDIA Run:ai لإدارة مهام الذكاء الاصطناعي ووحدات المعالجة الرسومية استخدام البنية التحتية للذكاء الاصطناعي بكفاءة. سواء كانت المهام تعمل على عقد SageMaker HyperPod أو GPUs داخل المؤسسة، تساعد خصائص الجدولة المتقدمة وتقسيم GPUs في تحسين تخصيص الموارد. هذا يسمح للشركات بتشغيل المزيد من المهام باستخدام عدد أقل من GPUs. هذه المرونة تكون خاصة قيمة للمؤسسات التي تدير طلبات الحوسبة المتغيرة، مثل التغيرات اليومية أو الموسمية. تتكيف NVIDIA Run:ai مع هذه التغييرات، وتمنح الأولوية للموارد للتوقعات أثناء ذروة الطلب بينما توازن بين متطلبات التدريب. تقييم وملاحظات من المختصين: يعد هذا التكامل خطوة مهمة نحو تبسيط إدارة التدريب على الذكاء الاصطناعي وجعله أكثر كفاءة ومرونة. يرى الخبراء أن هذا الحل يقدم فوائد كبيرة للشركات التي تحتاج إلى تدريب نماذج معقدة ومتعددة المراحل، حيث يوفر مرونة فائقة وإدارة موارد فعالة. هذا يمكن الشركات من التركيز على التطوير والإبداع بدلاً من القضايا التقنية المتعلقة بالإدارة. نبذة عن NVIDIA Run:ai: NVIDIA Run:ai هي منصة رائدة في مجال إدارة مهام الذكاء الاصطناعي وإدارة وحدات المعالجة الرسومية. تهدف إلى تسهيل عملية إدارة الموارد في بيئات هجينة، مما يجعلها الخيار الأمثل للمؤسسات التي تحتاج إلى توسيع قدراتها في الذكاء الاصطناعي بسرعة وكفاءة. يمكن للمهتمين التواصل مع NVIDIA Run:ai لمعرفة المزيد عن كيفية تعجيل مبادراتهم في الذكاء الاصطناعي باستخدام هذا التكامل.