GPipe: تدريب كفؤ للشبكات العصبية العملاقة باستخدام التوازي الإنبوبية

توسيع قدرة الشبكات العصبية العميقة معروف بأنه نهج فعال لتحسين جودة النموذج في العديد من مهام التعلم الآلي المختلفة. وفي كثير من الحالات، كان يتطلب زيادة القدرة النموذجية إلى ما يتجاوز حد الذاكرة لمتسارع واحد تطوير خوارزميات أو بنية تحتية خاصة. هذه الحلول غالبًا ما تكون محددة للهيكل المعماري ولا تنتقل إلى مهام أخرى. لمعالجة الحاجة إلى موازاة نماذج كفؤة ومستقلة عن المهمة، نقدم GPipe، وهي مكتبة موازاة خط أنابيب تسمح بتوسيع أي شبكة يمكن التعبير عنها كمتتالية من الطبقات. من خلال وضع متتابعات مختلفة من الطبقات على متسارعات منفصلة، توفر GPipe المرونة في توسيع مجموعة متنوعة من الشبكات إلى أحجام ضخمة بكفاءة. بالإضافة إلى ذلك، تستفيد GPipe من خوارزمية تقسيم الدفعات الجديدة، مما يؤدي إلى تسريع شبه خطي عند تقسيم النموذج عبر عدة متسارعات. نوضح مزايا GPipe بتدريب شبكات عصبية كبيرة الحجم على مهمتين مختلفتين ذات هياكل شبكة متباينة: (i) تصنيف الصور: نقوم بتدريب نموذج AmoebaNet الذي يحتوي على 557 مليون معامل ونحقق دقة 84.4٪ في المرتبة الأولى على ImageNet-2012، (ii) الترجمة الآلية متعددة اللغات: نقوم بتدريب نموذج Transformer واحد يحتوي على 6 مليارات معامل و128 طبقة على سجل يغطي أكثر من 100 لغة ونحقق جودة أفضل من جميع النماذج الثنائية اللغوية.