HyperAIHyperAI
منذ 2 أشهر

تقطير المعرفة على مستوى التسلسل

Yoon Kim; Alexander M. Rush
تقطير المعرفة على مستوى التسلسل
الملخص

الترجمة العصبية الآلية (NMT) تقدم صياغة بديلة جديدة للترجمة قد تكون أبسط من النماذج الإحصائية. ومع ذلك، لبلوغ الأداء التنافسي، يجب أن تكون نماذج الترجمة العصبية الآلية كبيرة للغاية. في هذا البحث، ندرس تطبيق مقاربات التقطير المعرفي (Bucila et al., 2006؛ Hinton et al., 2015) التي أثبتت نجاحها في تقليص حجم النماذج العصبية في مجالات أخرى على مشكلة الترجمة العصبية الآلية. نوضح أن التقطير المعرفي القياسي المطبق على التنبؤ بالكلمات يمكن أن يكون فعالًا للترجمة العصبية الآلية، كما نقدم أيضًا نسختين جديدتين من التقطير المعرفي على مستوى المتتابعة تحسنان الأداء بشكل إضافي، وفي مفاجأة ما، يبدو أنهما يلغيان الحاجة إلى البحث الشعاعي (حتى عند تطبيقه على النموذج الأستاذ الأصلي). يعمل أفضل نموذج طالب لدينا بمعدل أسرع عشر مرات من نموذج الأستاذ الرائد مع خسارة قليلة في الأداء. وهو أيضًا أفضل بكثير من النموذج الأساسي الذي تم تدريبه دون التقطير المعرفي: بـ 4.2/1.7 درجة BLEU باستخدام التشفير الجشعي/البحث الشعاعي. عند تطبيق تقليم الوزن فوق التقطير المعرفي، ينتج عنه نموذج طالب يحتوي على عدد أقل من المعالم بمقدار ثلاثة عشر مرة من النموذج الأستاذ الأصلي، مع انخفاض قدره 0.4 درجة BLEU.

تقطير المعرفة على مستوى التسلسل | أحدث الأوراق البحثية | HyperAI