MobileBERT: نموذج برت مدمج غير مخصص للمهام لустройств الموارد المحدودة

لقد حققت معالجة اللغة الطبيعية (NLP) نجاحًا كبيرًا مؤخرًا من خلال استخدام نماذج مُدرَّبة مسبقًا ضخمة تحتوي على مئات الملايين من المعاملات. ومع ذلك، تعاني هذه النماذج من أحجام نموذج كبيرة وتأخير عالٍ، مما يجعل من الصعب نشرها على الأجهزة المحمولة ذات الموارد المحدودة. في هذه الورقة، نقترح نموذج MobileBERT لضغط وتسريع النموذج الشهير BERT. مثل النموذج الأصلي BERT، فإن MobileBERT لا يعتمد على مهمة معينة، أي أنه يمكن تطبيقه بشكل عام على مهام NLP المختلفة من خلال التخصيص البسيط. بشكل أساسي، يُعد MobileBERT نسخة رقيقة من BERT_LARGE، مع احتوائه على هياكل ممر ضيق (bottleneck) وتوازن دقيق بين الشبكات ذات الانتباه الذاتي (self-attentions) والشبكات التغذية الأمامية (feed-forward networks). لتدريب MobileBERT، نبدأ أولاً بتدريب نموذج معلم مصمم خصيصًا، وهو نموذج BERT_LARGE يحتوي على هيكل ممر عكسي (inverted-bottleneck). ثم نقوم بنقل المعرفة من هذا النموذج المعلم إلى MobileBERT. أظهرت الدراسات التجريبية أن MobileBERT أصغر بنسبة 4.3 مرة وأسرع بنسبة 5.5 مرة من BERT_BASE، مع تحقيق نتائج تنافسية على معايير معروفة. على مهام الاستنتاج اللغوي في مجموعة GLUE، حقق MobileBERT درجة GLUE تبلغ 77.7 (أقل بـ 0.6 عن BERT_BASE)، مع تأخير قدره 62 مللي ثانية على هاتف Pixel 4. وعلى مهمة الإجابة عن الأسئلة في SQuAD v1.1/v2.0، حقق MobileBERT درجة F1 على البيانات التحققية بـ 90.0/79.2 (أعلى بـ 1.5/2.1 عن BERT_BASE).