HyperAIHyperAI
منذ 2 أشهر

DistilBERT، نسخة مُركزة من BERT: أصغر، أسرع، أقل تكلفة وأخف وزناً

Victor Sanh; Lysandre Debut; Julien Chaumond; Thomas Wolf
DistilBERT، نسخة مُركزة من BERT: أصغر، أسرع، أقل تكلفة وأخف وزناً
الملخص

مع انتشار التعلم النقل من نماذج مُدربة مسبقًا على نطاق واسع في معالجة اللغة الطبيعية (NLP)، لا تزال تشغيل هذه النماذج الكبيرة في الأجهزة الحوافية (on-the-edge) وفي ظروف محدودة للميزانيات الحسابية للتدريب أو الاستدلال أمرًا صعبًا. في هذا البحث، نقترح طريقة لتدريب نموذج تمثيل لغوي عام أصغر، يُطلق عليه DistilBERT، والذي يمكن تحسينه بعد ذلك بفعالية جيدة لأداء مجموعة واسعة من المهام مثل نظيره الأكبر. بينما ركزت معظم الأعمال السابقة على استخدام التقطير لبناء نماذج خاصة بالمهام، فإننا نستغل التعلم بالتقطير خلال مرحلة التدريب المسبق ونظهر أنه من الممكن تقليص حجم نموذج BERT بنسبة 40٪ مع الاحتفاظ بـ 97٪ من قدراته على فهم اللغة وأن يكون أسرع بنسبة 60٪. للاستفادة من الانحيازات الاستقرائية التي تتعلمها النماذج الأكبر خلال التدريب المسبق، قدمنا خسارة ثلاثية تجمع بين تمثيل اللغة، والتقطير، وخسارة المسافة الجيبية (cosine-distance). نموذجنا الأصغر والأسرع والأخف وزنًا أقل تكلفة للتدريب المسبق، وقد أظهرنا قدراته في الحسابات على الجهاز في تجربة مفاهيم أولية وفي دراسة مقارنة على الجهاز.

DistilBERT، نسخة مُركزة من BERT: أصغر، أسرع، أقل تكلفة وأخف وزناً | أحدث الأوراق البحثية | HyperAI