HyperAIHyperAI

Command Palette

Search for a command to run...

هايدرا: نظام للتعلم العميق متعدد النماذج الكبير

Kabir Nagrecha Arun Kumar

الملخص

يُعدّ توسيع عمق النموذج وحجمه الآن من الأساليب الشائعة لتحقيق دقة أعلى في العديد من تطبيقات التعلم العميق (DL)، كما يُظهره النجاح الواسع النطاق للنماذج التي تحتوي على مليارات أو حتى تريليونات المعاملات في بحوث معالجة اللغة الطبيعية (NLP). وعلى الرغم من النجاح في أبحاث التعلم العميق والشركات التكنولوجية الكبرى، لا يزال انتشار النماذج الكبيرة على نطاق أوسع بين العلماء في المجالات المتخصصة والشركات يواجه عقبات بسبب حدود ذاكرة وحدات المعالجة الرسومية (GPU)، وتكاليف التدريب المرتفعة، وندرة توفر وحدات GPU، حتى في البيئات السحابية العامة. وتتفاقم هذه التحديات من مسألة اختيار النموذج: فغالبًا ما يحتاج المستخدمون إلى مقارنة عشرات النماذج التي تختلف في القيم المحددة (Hyper-parameters) أو في البنية العصبية لتتناسب مع مهامهم وبياناتهم الخاصة. في هذا البحث، نقدّم نظام "Hydra"، المصمّم لمعالجة هذه التحديات من خلال تمكين التوسع الفوري للعمليات ذات النماذج الكبيرة المتعددة في بيئات التعلم العميق، حتى على وحدات GPU شائعة الاستخدام، وبطريقة فعّالة من حيث استخدام الموارد. يُعدّ "Hydra" أول نهج يُحسّن بشكل شامل تنفيذ مهام النماذج المتعددة بالنسبة للنماذج الكبيرة في التعلم العميق. ونحقّق ذلك من خلال تعديل أساليب التنفيذ السابقة القائمة على "التقسيم النموذجي" (model-parallel) لتعمل مع نقل مُعاملات قابلة للتوسع عبر هرمية الذاكرة، بالإضافة إلى دمج هذه الطريقة بشكل هجين مع تقنيات جدولة المهام المتعددة (task-parallel job scheduling). يُفصل "Hydra" بين قابلية التوسع في معاملات النموذج وبين التوازي في التنفيذ، مما يسمح للمستخدمين في التعلم العميق بتدريب نموذج يحتوي على 6 مليارات معامل على وحدة GPU واحدة شائعة الاستخدام. كما يستغل النظام بالكامل إمكانات التسارع الناتجة عن التوازي في المهام في البيئات متعددة وحدات GPU، ما يُنتج تكبيرًا قويًا شبه خطي (near-linear strong scaling)، ويُجعِل عملية اختيار النموذج الصارمة أكثر قابلية للتطبيق بالنسبة لهذه النماذج. وقد قُمنا بتقييم الأداء من البداية إلى النهاية من خلال تعديل نموذج GPT-2 لمهام نمذجة اللغة. ووجدنا أن "Hydra" يقدّم معدل تدريب أعلى بنسبة تتراوح بين 50% و100% مقارنة بأفضل إعدادات الأطر الصناعية الرائدة مثل DeepSpeed وGPipe في سياق التدريب على نماذج كبرى متعددة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
هايدرا: نظام للتعلم العميق متعدد النماذج الكبير | مستندات | HyperAI