HyperAIHyperAI

Command Palette

Search for a command to run...

DistilBERT، نسخة مُركزة من BERT: أصغر، أسرع، أقل تكلفة وأخف وزناً

Victor SANH Lysandre DEBUT Julien CHAUMOND Thomas WOLF

الملخص

مع انتشار التعلم النقل من نماذج مُدربة مسبقًا على نطاق واسع في معالجة اللغة الطبيعية (NLP)، لا تزال تشغيل هذه النماذج الكبيرة في الأجهزة الحوافية (on-the-edge) وفي ظروف محدودة للميزانيات الحسابية للتدريب أو الاستدلال أمرًا صعبًا. في هذا البحث، نقترح طريقة لتدريب نموذج تمثيل لغوي عام أصغر، يُطلق عليه DistilBERT، والذي يمكن تحسينه بعد ذلك بفعالية جيدة لأداء مجموعة واسعة من المهام مثل نظيره الأكبر. بينما ركزت معظم الأعمال السابقة على استخدام التقطير لبناء نماذج خاصة بالمهام، فإننا نستغل التعلم بالتقطير خلال مرحلة التدريب المسبق ونظهر أنه من الممكن تقليص حجم نموذج BERT بنسبة 40٪ مع الاحتفاظ بـ 97٪ من قدراته على فهم اللغة وأن يكون أسرع بنسبة 60٪. للاستفادة من الانحيازات الاستقرائية التي تتعلمها النماذج الأكبر خلال التدريب المسبق، قدمنا خسارة ثلاثية تجمع بين تمثيل اللغة، والتقطير، وخسارة المسافة الجيبية (cosine-distance). نموذجنا الأصغر والأسرع والأخف وزنًا أقل تكلفة للتدريب المسبق، وقد أظهرنا قدراته في الحسابات على الجهاز في تجربة مفاهيم أولية وفي دراسة مقارنة على الجهاز.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp