منذ 2 أشهر

تقطير المعرفة الخاصة بالمهمة من BERT إلى الشبكات العصبية البسيطة

Raphael Tang; Yao Lu; Linqing Liu; Lili Mou; Olga Vechtomova; Jimmy Lin

الملخص

في أدبيات معالجة اللغة الطبيعية، أصبحت الشبكات العصبية أعمق وأكثر تعقيدًا بشكل متزايد. المثال الأحدث على هذا الاتجاه هو نموذج التمثيل العميق للغة، الذي يشمل BERT وELMo وGPT. أدت هذه التطورات إلى القناعة بأن شبكات العصب السابقة والبسيطة لفهم اللغة قد أصبحت قديمة. ومع ذلك، في هذه الورقة البحثية، نثبت أن يمكن جعل الشبكات العصبية الأولية والخفيفة تنافسية دون تغيير في الهيكل أو بيانات تدريب خارجية أو ميزات إدخال إضافية. نقترح استخلاص المعرفة من BERT، وهو نموذج تمثيل اللغة الأكثر تقدمًا حاليًا، إلى LSTM ثنائية الاتجاه ذات الطبقة الواحدة (BiLSTM)، وكذلك نظيرها التوأمي للمهام التي تتضمن زوج الجمل. عبر عدة مجموعات بيانات في إعادة صياغة الجمل، والاستدلال باللغة الطبيعية، وتصنيف المشاعر، حققنا نتائج مشابهة لـ ELMo بينما استخدمنا حوالي 100 مرة أقل من المعاملات وأقل بـ 15 مرة من وقت الاستدلال.