منذ 11 أيام

TinyBERT: تقطيع BERT لفهم اللغة الطبيعية

Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu

الملخص

تم تحسين أداء العديد من مهام معالجة اللغة الطبيعية بشكل كبير بفضل التدريب المسبق للنماذج اللغوية، مثل BERT. ومع ذلك، فإن النماذج اللغوية المُدرَّبة مسبقًا تكون عادةً باهظة التكلفة من حيث الحوسبة، مما يجعل من الصعب تنفيذها بكفاءة على الأجهزة المحدودة الموارد. ولتسريع عملية الاستدلال وتقليل حجم النموذج مع الحفاظ على الدقة، نقترح أولًا طريقة جديدة للاستخلاص المعرفي (Knowledge Distillation - KD) مبنية على معمارية Transformer، مصممة خصيصًا لنقل المعرفة من النماذج القائمة على Transformer. وباستخدام هذه الطريقة الجديدة، يمكن نقل المعرفة الكثيرة المُشفرة في نموذج BERT الكبير (المرشد) إلى نموذج Tiny-BERT الصغير (الطالب) بشكل فعّال. ثم نقدّم إطارًا تعلّميًا ثنائي المرحلة جديدًا لـ TinyBERT، يقوم بتطبيق استخلاص Transformer في مرحلتي التدريب المسبق والتعلم المخصص للمهام. يضمن هذا الإطار أن يتمكن TinyBERT من اكتساب المعرفة الشاملة في المجال العام، وكذلك المعرفة الخاصة بالمهام من نموذج BERT.أظهر TinyBERT ذا 4 طبقات كفاءة تجريبية عالية، حيث حقق أكثر من 96.8% من أداء نموذج BERTBASE المرشد على معيار GLUE، مع أن حجمه أصغر بـ 7.5 مرة وسرعته أعلى بـ 9.4 مرة أثناء الاستدلال. كما أن TinyBERT ذا 4 طبقات يتفوق بشكل ملحوظ على أحدث النماذج البديلة ذات 4 طبقات في استخلاص BERT، مع احتفاظه بحوالي 28% فقط من عدد المعاملات وحوالي 31% فقط من وقت الاستدلال مقارنةً بها. علاوةً على ذلك، يحقق TinyBERT ذا 6 طبقات أداءً متماثلًا مع نموذج BERTBASE المرشد.