Q-BERT: التكميم فائق الدقة المنخفضة القائمة على هسيان لنموذج BERT

أصبحت الهياكل القائمة على Transformer النماذج الافتراضية المستخدمة في مجموعة واسعة من مهام معالجة اللغة الطبيعية. وبشكل خاص، حققت النماذج المستندة إلى BERT تحسنًا كبيرًا في الدقة بالنسبة لمهام GLUE وCoNLL-03 وSQuAD. ومع ذلك، تتميز النماذج المستندة إلى BERT بحجم ذاكرة كبير جدًا وتأخير عالٍ، ما يجعل نشر هذه النماذج في البيئات المحدودة الموارد مهمةً صعبة. في هذه الدراسة، نقوم بتحليل مفصل للنماذج BERT المُعدَّلة بدقة باستخدام معلومات هيسيان من الدرجة الثانية، ونستخدم نتائجنا لاقتراح طريقة جديدة لتصغير دقة النماذج BERT إلى مستويات متطرفة. وبشكل خاص، نقترح خطة جديدة لتصغير الدقة بناءً على المجموعات، ونستخدم طريقة مختلطة الدقة تعتمد على هيسيان لضغط النموذج بشكل أكبر. وقد قمنا باختبار مكثف للطريقة المقترحة على مهام تطبيقية لنموذج BERT تتضمن SST-2 وMNLI وCoNLL-03 وSQuAD. ونجحنا في تحقيق أداء مماثل للأداء الأساسي مع انخفاض أقصى بنسبة 2.3٪، حتى مع التصغير إلى دقة متطرفة تصل إلى 2 بت، ما يعادل تقليل حجم المعاملات بنسبة تصل إلى 13 مرة، وخفض حجم جدول التضمين والأنشطة بنسبة تصل إلى 4 مرات. ومن بين جميع المهام، لاحظنا أعلى فقدان في الأداء بالنسبة للنموذج BERT المُعدَّل بدقة على SQuAD. وبتحليل مفصل باستخدام تحليل هيسيان والتصورات البصرية، نُظهر أن هذا يرتبط بحقيقة أن الاستراتيجية الحالية للتدريب/التعديل الدقيق لنموذج BERT لا تتوافق (لا تصل إلى تقارب) عند تطبيقها على SQuAD.