تنظيم وتحسين نماذج اللغة LSTM

الشبكات العصبية المتكررة (RNNs) مثل شبكات الذاكرة طويلة المدى قصيرة الأجل (LSTMs)، تعمل كعنصر أساسي في العديد من مهام التعلم المتتابعة، بما في ذلك الترجمة الآلية ونمذجة اللغة وإجابة الأسئلة. في هذا البحث، نعتبر المشكلة الخاصة بنمذجة اللغة على مستوى الكلمات وندرس استراتيجيات لتنظيم وتحسين النماذج المستندة إلى LSTM. نقترح استخدام LSTM مع الأوزان المنسدلة، والتي تستخدم تقنية DropConnect على الأوزان من الخفي إلى الخفي كشكل من أشكال التنظيم المتكرر. بالإضافة إلى ذلك، نقدم NT-ASGD، وهو نوع متغير من طريقة التدرج العشوائي المتوسطة، حيث يتم تحديد وقت بدء التجميع باستخدام شرط غير متزايد بدلاً من ضبطه بواسطة المستخدم. باستخدام هذه الاستراتيجيات التنظيمية وغيرها، نحقق أفضل درجات الحيرة (perplexities) على مستوى الكلمات في مجموعتين من البيانات: 57.3 على Penn Treebank و65.8 على WikiText-2. عند استكشاف فعالية ذاكرة عصبية بالاشتراك مع النموذج المقترح لدينا، نحقق درجات حيرة أقل وأفضل وهي 52.8 على Penn Treebank و52.0 على WikiText-2.请注意,这里的“DropConnect”、“perplexities”、“Penn Treebank”和“WikiText-2”都是专有名词或特定术语,因此在翻译时保留了它们的英文形式。同时,“non-monotonic condition”也被直接翻译为“شرط غير متزايد”,以保持其专业性和准确性。