HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل مهام Apache Spark إلى وحدات معالجة الرسومات بمقاييس ضخمة على Amazon EMR بفضل مشروع Aether

تُعدّ مهام معالجة البيانات باستخدام Apache Spark على منصات الحوسبة السحابية تحديًا كبيرًا بسبب بطء الأداء في البيئات القائمة على المعالجات المركزية (CPU)، مما يستهلك موارد هائلة ويؤدي إلى تكاليف سحابية مرتفعة. لمواجهة هذه التحديات، أطلقت NVIDIA أداة جديدة تُعرف بـ Project Aether، وهي حل مُصمم لتسهيل وتسريع عملية نقل مهام Spark التقليدية من المعالجات المركزية إلى وحدات المعالجة الرسومية (GPU) على منصة Amazon EMR. يُعدّ Project Aether مجموعة من الخدمات الصغيرة (microservices) التي تعمل تلقائيًا على تقييم وتحسين وتحقق من صحة ونقل مهام Spark من بيئة CPU إلى بيئة GPU مُسرّعة باستخدام RAPIDS Accelerator. يُقلل هذا الحل من الحاجة إلى التدخل اليدوي، ويُسرّع عملية التحول من أسابيع إلى ساعات، مع ضمان دقة النتائج وسلامة البيانات. يبدأ العمل بتهيئة الأداة على منصة Amazon EMR، حيث يتم تثبيت حزمة Aether وتكوين العميل للعمل مع EMR. ثم يُطبّق سير عمل مُنظّم يتكون من أربع مراحل رئيسية: أولًا، التنبؤ (Predict): يُستخدم نموذج ذكاء اصطناعي يُدعى QualX، مبني على خوارزمية XGBoost، لتحليل سجلات الأحداث من تشغيل المهمة على CPU، ويُقدّر مدى ملاءمة المهمة للتسريع باستخدام GPU، ويُقدّم توصيات أولية لتحسين الأداء. ثانيًا، التحسين (Optimize): يتم إنشاء مجموعة اختبارية باستخدام وحدات GPU عبر خدمة "Cluster"، ثم يُرسل العمل إلى هذه البيئة باستخدام خدمة "Submit"، ويُحلّل الأداء باستخدام خدمة "Profile" التي تُعيد توليد إعدادات تكوين Spark لتحسين السرعة وتقليل التكلفة. يتم تكرار هذه العملية بشكل تدريجي حتى الوصول إلى أفضل أداء. ثالثًا، التحقق (Validate): تُستخدم خدمة "Validate" لمقارنة النتائج بين النسخة الأصلية (CPU) والنسخة المُسرّعة (GPU)، مع التركيز على مؤشرات حاسمة مثل عدد الصفوف المُقرأة والكتابية، لضمان أن النتائج متطابقة تمامًا. رابعًا، النقل (Migrate): تُقدّم خدمة "Report" تقارير تفصيلية عبر واجهة سطر أو واجهة رسومية، تُظهر التوصيات النهائية، بما في ذلك الإعدادات المثلى لـ Spark وتكوينات المجموعة (cluster) المُوصى بها لتشغيل المهمة على GPU. يمكن أيضًا تشغيل كل هذه المراحل تلقائيًا في خطوة واحدة عبر أمر aether run، مما يُبسط العملية بشكل كبير. يُعدّ Project Aether حلاً مبتكرًا لتمكين المؤسسات من الاستفادة من قوة GPU في معالجة البيانات الكبيرة، مع تقليل التكاليف، وتحسين الأداء بنسبة تصل إلى عشرات المرات، وتسريع دورة التطوير. للمهتمين، يمكن التقديم للوصول إلى المشروع، بينما تُوفر وثائق RAPIDS Accelerator تفاصيل تقنية إضافية حول التكامل.

الروابط ذات الصلة