تحسين شبكات العصب العميق متعددة المهام من خلال التقطير المعرفي لفهم اللغة الطبيعية

يبحث هذا البحث في استخدام تقنية تقطير المعرفة لتحسين شبكة عصبية عميقة متعددة المهام (MT-DNN) (Liu et al., 2019) في تعلم تمثيلات النص عبر مهام فهم اللغة الطبيعية المتعددة. رغم أن التعلم الجمعي يمكن أن يحسن أداء النماذج، فإن تشغيل مجموعة من شبكات العصبونات العميقة الكبيرة مثل MT-DNN قد يكون باهظ الثمن بشكل كبير. هنا نطبق طريقة تقطير المعرفة (Hinton et al., 2015) في إطار التعلم متعدد المهام. لكل مهمة، نقوم بتدريب مجموعة من شبكات MT-DNN المختلفة (المعلمين) التي تتفوق على أي نموذج منفرد، ثم نقوم بتدريب شبكة MT-DNN واحدة (الطالب) عبر التعلم متعدد المهام لـ \emph{تقطير} المعرفة من هذه المجموعات التعليمية. نظهر أن الشبكة MT-DNN التي تم تقطيرها تتفوق بشكل كبير على الشبكة الأصلية MT-DNN في 7 من أصل 9 مهام GLUE، مما يرفع مستوى معيار GLUE (نموذج منفرد) إلى 83.7٪ (تحسن مطلق بنسبة 1.5٪\footnote{ بناءً على لوحة قيادة GLUE في https://gluebenchmark.com/leaderboard بتاريخ 1 أبريل 2019.}). سيتم جعل الكود والنماذج المدربة مسبقًا متاحين للعامة على https://github.com/namisan/mt-dnn.