منذ شهر واحد
نمذجة اللغة على مستوى الحرف باستخدام انتباه ذاتي أعمق
Rami Al-Rfou; Dokook Choe; Noah Constant; Mandy Guo; Llion Jones

الملخص
أظهرت شبكات LSTM وأنواع أخرى من شبكات RNN أداءً قويًا في نمذجة اللغة على مستوى الحروف. يتم تدريب هذه النماذج عادةً باستخدام الخلفية المقطوعة للانتشار العكسي عبر الزمن، وغالبًا ما يُفترض أن نجاحها ينبع من قدرتها على تذكر السياقات طويلة الأجل. في هذا البحث، نوضح أن نموذج التحويل العميق (ذو 64 طبقة) مع سياق ثابت يتفوق على أنواع RNN بفارق كبير، حيث حقق أفضل الأداء على معيارين شهيرين: 1.13 بت لكل حرف على مجموعة بيانات text8 و1.06 على مجموعة بيانات enwik8. لكي نحصل على نتائج جيدة عند هذا المستوى من العمق، نوضح أنه من المهم إضافة خسائر مساعدة، سواء في طبقات الشبكة الوسيطة أو في مواقع التسلسل الوسيطة.