منذ 11 أيام

كيفية تدريب BERT بموازنة أكاديمية

Peter Izsak, Moshe Berchansky, Omer Levy

الملخص

بينما تُستخدم نماذج اللغة الكبيرة من نوع BERT بشكل واسع في معالجة اللغة الطبيعية (NLP)، يُعتبر تدريبها أمراً يُعدّ من الأمور المكلفة التي لا يمكن إلا لبعض المختبرات الصناعية الممولة جيداً تحمل تكلفتها. فكيف يمكن تدريب مثل هذه النماذج بتكلفة أقل؟ نقدّم وصفة لتدريب نموذج لغة مُخفي (masked language model) خلال 24 ساعة فقط باستخدام خادم واحد منخفض التكلفة مخصص للتعلم العميق. ونُظهر من خلال مزيج من تحسينات البرمجيات، واختيارات تصميمية، وضبط المعلمات الفائقة (hyperparameter tuning)، إمكانية إنتاج نماذج تنافس نموذج BERT-base في مهام GLUE، وبتكلفة تدريب تقلّ عن جزء بسيط من التكلفة الأصلية.