منذ 2 أشهر

ALBERT: نسخة خفيفة من BERT لتعلم التمثيلات اللغوية بطريقة ذاتية الإشراف

Zhenzhong Lan; Mingda Chen; Sebastian Goodman; Kevin Gimpel; Piyush Sharma; Radu Soricut

الملخص

زيادة حجم النموذج أثناء التدريب المسبق لتمثيلات اللغة الطبيعية غالباً ما تؤدي إلى تحسين الأداء في المهام اللاحقة. ومع ذلك، فإن زيادة النماذج أكثر من ذلك تصبح أصعب في مرحلة معينة بسبب حدود ذاكرة وحدة المعالجة الرسومية (GPU) / وحدة معالجة التوتر (TPU) وأوقات التدريب الأطول. لحل هذه المشكلات، نقدم تقنيتين لتقليل المعلمات بهدف خفض استهلاك الذاكرة وزيادة سرعة التدريب لـ BERT. الأدلة التجريبية الشاملة تظهر أن طرقنا المقترحة تؤدي إلى نماذج ذات قابلية للتوسع بشكل أفضل بكثير مقارنة بـ BERT الأصلي. كما نستخدم دالة خسارة ذات إشراف ذاتي تركز على نمذجة تماسك الجمل بين بعضها البعض، ونوضح أنها تسهم باستمرار في تحسين المهام اللاحقة التي تتضمن مدخلات متعددة الجمل. نتيجة لذلك، حقق نموذجنا الأفضل نتائج جديدة رائدة في مقاييس GLUE و RACE و \squad بينما يحتوي على عدد أقل من المعلمات مقارنة بـ BERT-large. يمكن الوصول إلى الكود والنماذج المدربة مسبقاً عبر الرابط: https://github.com/google-research/ALBERT.