HyperAIHyperAI

Command Palette

Search for a command to run...

تقطير المعرفة على مستوى التسلسل

Yoon Kim Alexander M. Rush

الملخص

الترجمة العصبية الآلية (NMT) تقدم صياغة بديلة جديدة للترجمة قد تكون أبسط من النماذج الإحصائية. ومع ذلك، لبلوغ الأداء التنافسي، يجب أن تكون نماذج الترجمة العصبية الآلية كبيرة للغاية. في هذا البحث، ندرس تطبيق مقاربات التقطير المعرفي (Bucila et al., 2006؛ Hinton et al., 2015) التي أثبتت نجاحها في تقليص حجم النماذج العصبية في مجالات أخرى على مشكلة الترجمة العصبية الآلية. نوضح أن التقطير المعرفي القياسي المطبق على التنبؤ بالكلمات يمكن أن يكون فعالًا للترجمة العصبية الآلية، كما نقدم أيضًا نسختين جديدتين من التقطير المعرفي على مستوى المتتابعة تحسنان الأداء بشكل إضافي، وفي مفاجأة ما، يبدو أنهما يلغيان الحاجة إلى البحث الشعاعي (حتى عند تطبيقه على النموذج الأستاذ الأصلي). يعمل أفضل نموذج طالب لدينا بمعدل أسرع عشر مرات من نموذج الأستاذ الرائد مع خسارة قليلة في الأداء. وهو أيضًا أفضل بكثير من النموذج الأساسي الذي تم تدريبه دون التقطير المعرفي: بـ 4.2/1.7 درجة BLEU باستخدام التشفير الجشعي/البحث الشعاعي. عند تطبيق تقليم الوزن فوق التقطير المعرفي، ينتج عنه نموذج طالب يحتوي على عدد أقل من المعالم بمقدار ثلاثة عشر مرة من النموذج الأستاذ الأصلي، مع انخفاض قدره 0.4 درجة BLEU.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقطير المعرفة على مستوى التسلسل | مستندات | HyperAI