HyperAIHyperAI
منذ 9 أيام

هايدرا: نظام للتعلم العميق متعدد النماذج الكبير

Kabir Nagrecha, Arun Kumar
هايدرا: نظام للتعلم العميق متعدد النماذج الكبير
الملخص

يُعدّ توسيع عمق النموذج وحجمه الآن من الأساليب الشائعة لتحقيق دقة أعلى في العديد من تطبيقات التعلم العميق (DL)، كما يُظهره النجاح الواسع النطاق للنماذج التي تحتوي على مليارات أو حتى تريليونات المعاملات في بحوث معالجة اللغة الطبيعية (NLP). وعلى الرغم من النجاح في أبحاث التعلم العميق والشركات التكنولوجية الكبرى، لا يزال انتشار النماذج الكبيرة على نطاق أوسع بين العلماء في المجالات المتخصصة والشركات يواجه عقبات بسبب حدود ذاكرة وحدات المعالجة الرسومية (GPU)، وتكاليف التدريب المرتفعة، وندرة توفر وحدات GPU، حتى في البيئات السحابية العامة. وتتفاقم هذه التحديات من مسألة اختيار النموذج: فغالبًا ما يحتاج المستخدمون إلى مقارنة عشرات النماذج التي تختلف في القيم المحددة (Hyper-parameters) أو في البنية العصبية لتتناسب مع مهامهم وبياناتهم الخاصة. في هذا البحث، نقدّم نظام "Hydra"، المصمّم لمعالجة هذه التحديات من خلال تمكين التوسع الفوري للعمليات ذات النماذج الكبيرة المتعددة في بيئات التعلم العميق، حتى على وحدات GPU شائعة الاستخدام، وبطريقة فعّالة من حيث استخدام الموارد. يُعدّ "Hydra" أول نهج يُحسّن بشكل شامل تنفيذ مهام النماذج المتعددة بالنسبة للنماذج الكبيرة في التعلم العميق. ونحقّق ذلك من خلال تعديل أساليب التنفيذ السابقة القائمة على "التقسيم النموذجي" (model-parallel) لتعمل مع نقل مُعاملات قابلة للتوسع عبر هرمية الذاكرة، بالإضافة إلى دمج هذه الطريقة بشكل هجين مع تقنيات جدولة المهام المتعددة (task-parallel job scheduling). يُفصل "Hydra" بين قابلية التوسع في معاملات النموذج وبين التوازي في التنفيذ، مما يسمح للمستخدمين في التعلم العميق بتدريب نموذج يحتوي على 6 مليارات معامل على وحدة GPU واحدة شائعة الاستخدام. كما يستغل النظام بالكامل إمكانات التسارع الناتجة عن التوازي في المهام في البيئات متعددة وحدات GPU، ما يُنتج تكبيرًا قويًا شبه خطي (near-linear strong scaling)، ويُجعِل عملية اختيار النموذج الصارمة أكثر قابلية للتطبيق بالنسبة لهذه النماذج. وقد قُمنا بتقييم الأداء من البداية إلى النهاية من خلال تعديل نموذج GPT-2 لمهام نمذجة اللغة. ووجدنا أن "Hydra" يقدّم معدل تدريب أعلى بنسبة تتراوح بين 50% و100% مقارنة بأفضل إعدادات الأطر الصناعية الرائدة مثل DeepSpeed وGPipe في سياق التدريب على نماذج كبرى متعددة.

هايدرا: نظام للتعلم العميق متعدد النماذج الكبير | أحدث الأوراق البحثية | HyperAI