HyperAIHyperAI

Command Palette

Search for a command to run...

التحسين بالدُفعات الكبيرة للتعلم العميق: تدريب BERT في 76 دقيقة

Yang You Jing Li Sashank Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song James Demmel Kurt Keutzer Cho-Jui Hsieh

الملخص

تعد تدريب الشبكات العصبية العميقة الكبيرة على مجموعات بيانات ضخمة تحديًا حاسوبيًا كبيرًا. وقد شهدت الأعوام الأخيرة زيادة في الاهتمام باستخدام طرق التحسين العشوائي ذات الدفعات الكبيرة لمعالجة هذه المشكلة. ومن أبرز الخوارزميات في هذا المجال خوارزمية LARS، التي تستخدم معدلات تعلم متكيفة طبقيًا لتدريب ResNet على ImageNet خلال دقائق قليلة. ومع ذلك، فإن LARS لا تؤدي بشكل جيد مع نماذج الانتباه مثل BERT، مما يشير إلى أن مكاسب أدائها ليست ثابتة عبر المهام المختلفة.في هذا البحث، ندرس أولًا استراتيجية تكيف طبقي مدروسة لتسريع تدريب الشبكات العصبية العميقة باستخدام دفعات صغيرة كبيرة. باستخدام هذه الاستراتيجية، نطور تقنية جديدة للتحسين الطبقي الكبير بالدفعات تُسمى LAMB؛ ثم نقدم تحليل التقارب لكل من LAMB وLARS، مما يظهر التقارب إلى نقطة ثابتة في السياقات غير المحدبة بشكل عام. وأظهرت النتائج التجريبية لدينا الأداء المتفوق لـ LAMB في مجموعة متنوعة من المهام مثل تدريب BERT وResNet-50 مع ضبط بسيط للمعلمات الفائقة.وبشكل خاص، بالنسبة لتدريب BERT، يمكن لمحسننا استخدام دفعات كبيرة جدًا يصل حجمها إلى 32868 دون أي انخفاض في الأداء. من خلال زيادة حجم الدفعة إلى حدود ذاكرة TPUv3 Pod، يمكن تقليص وقت تدريب BERT من 3 أيام إلى مجرد 76 دقيقة (الجدول 1). ويمكن الحصول على تنفيذ LAMB من الرابط التالي: https://github.com/tensorflow/addons/blob/master/tensorflow_addons/optimizers/lamb.py


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp