اختبار واقعي لمحرّك دُفعة كبيرة: المحركات التقليدية والعامة كافية عبر أحجام الدُفعات المختلفة

في الآونة الأخيرة، تم اقتراح مُحسّنَي LARS وLAMB لتدريب الشبكات العصبية بشكل أسرع باستخدام أحجام دفعات كبيرة. يضيف كلا المُحسّنَين تطبيعًا حسب الطبقات إلى قواعد التحديث الخاصة بخوارزمية التسارع الثقيل (Heavy-ball momentum) وAdam على التوالي، وصارا شائعين جدًا في المعايير البارزة وملفات تعريف مكتبات التعلم العميق. ومع ذلك، وبلا مقارنات عادلة مع المُحسّنات القياسية، تظل مسألة ما إذا كانت LARS وLAMB تقدم فوائد حقيقية مقارنة بالخوارزميات التقليدية العامة مسألة مفتوحة. في هذا العمل، نُظهر أن الخوارزميات القياسية للتحسين، مثل التسارع النستروف (Nesterov momentum) وAdam، يمكنها تحقيق نتائج تساوي أو تفوق نتائج LARS وLAMB عند استخدام أحجام دفعات كبيرة. تُعد نتائجنا معايير جديدة وأقوى للمقارنات المستقبلية عند هذه الأحجام، كما تُسلط الضوء على الصعوبات المرتبطة بمقارنة مُحسّنات تدريب الشبكات العصبية بشكل عام.