الـ LSTM الضربي لنمذجة التسلسلات

نقدم LSTM الضربية (mLSTM)، وهي بنية شبكة عصبية متكررة مصممة لنمذجة التسلسلات تجمع بين هندسة الذاكرة قصيرة المدى طويلة الأمد (LSTM) وشبكات العصب المتكررة الضربية. يتميز mLSTM بقدرته على توفير دوال انتقال متكررة مختلفة لكل إدخال ممكن، وهو ما نعتقد أنه يجعله أكثر تعبيراً في تقدير الكثافة الذاتية. نثبت بالتجربة أن mLSTM يتفوق على LSTM القياسية وأصنافها العميقة في مجموعة من مهام نمذجة اللغة على مستوى الحروف. في هذا الإصدار من الورقة البحثية، نقوم بتقنين mLSTM لتحقيق أداء 1.27 بت/حرف على مجموعة بيانات text8 و1.24 بت/حرف على جائزة Hutter. كما نطبق mLSTM بشكل خالص على مستوى البايتات في مجموعة بيانات WikiText-2 لتحقيق انتروبيا على مستوى الحروف تبلغ 1.26 بت/حرف، مما يتوافق مع حيرة على مستوى الكلمات تبلغ 88.8، وهو أداء يعادل تقريباً أداء LSTM على مستوى الكلمات التي تم تقنينها بنفس الطريقة في نفس المهمة.