التحسين بالدُفعات الكبيرة للتعلم العميق: تدريب BERT في 76 دقيقة

تعد تدريب الشبكات العصبية العميقة الكبيرة على مجموعات بيانات ضخمة تحديًا حاسوبيًا كبيرًا. وقد شهدت الأعوام الأخيرة زيادة في الاهتمام باستخدام طرق التحسين العشوائي ذات الدفعات الكبيرة لمعالجة هذه المشكلة. ومن أبرز الخوارزميات في هذا المجال خوارزمية LARS، التي تستخدم معدلات تعلم متكيفة طبقيًا لتدريب ResNet على ImageNet خلال دقائق قليلة. ومع ذلك، فإن LARS لا تؤدي بشكل جيد مع نماذج الانتباه مثل BERT، مما يشير إلى أن مكاسب أدائها ليست ثابتة عبر المهام المختلفة.في هذا البحث، ندرس أولًا استراتيجية تكيف طبقي مدروسة لتسريع تدريب الشبكات العصبية العميقة باستخدام دفعات صغيرة كبيرة. باستخدام هذه الاستراتيجية، نطور تقنية جديدة للتحسين الطبقي الكبير بالدفعات تُسمى LAMB؛ ثم نقدم تحليل التقارب لكل من LAMB وLARS، مما يظهر التقارب إلى نقطة ثابتة في السياقات غير المحدبة بشكل عام. وأظهرت النتائج التجريبية لدينا الأداء المتفوق لـ LAMB في مجموعة متنوعة من المهام مثل تدريب BERT وResNet-50 مع ضبط بسيط للمعلمات الفائقة.وبشكل خاص، بالنسبة لتدريب BERT، يمكن لمحسننا استخدام دفعات كبيرة جدًا يصل حجمها إلى 32868 دون أي انخفاض في الأداء. من خلال زيادة حجم الدفعة إلى حدود ذاكرة TPUv3 Pod، يمكن تقليص وقت تدريب BERT من 3 أيام إلى مجرد 76 دقيقة (الجدول 1). ويمكن الحصول على تنفيذ LAMB من الرابط التالي: https://github.com/tensorflow/addons/blob/master/tensorflow_addons/optimizers/lamb.py