HyperAIHyperAI
منذ شهر واحد

تحسين نمذجة اللغة من خلال فك شفرة الماضي

Siddhartha Brahma
تحسين نمذجة اللغة من خلال فك شفرة الماضي
الملخص

الشبكات العصبية ذات الذاكرة القصيرة طويلة الأجل (LSTM) المُنتظمة بشكل كبير تحقق نتائج مثيرة للإعجاب على عدة مجموعات بيانات مرجعية في نمذجة اللغة. نقترح طريقة تنظيم جديدة تعتمد على فك رمز آخر رمز في السياق باستخدام التوزيع المتوقع للرمز التالي. هذا يميل بالنموذج نحو الحفاظ على المزيد من المعلومات السياقية، مما بدوره يحسن قدرته على التنبؤ بالرمز التالي. مع زيادة ضئيلة في عدد المعلمات ووقت التدريب، تحقق طريقة التنظيم الخاصة بنا التي تسمى فك الرمز السابق (PDR) درجة حيرة على مستوى الكلمات قدرها 55.6 في مجموعة بيانات Penn Treebank و63.5 في مجموعة بيانات WikiText-2 باستخدام دالة softmax واحدة فقط. كما نظهر زيادة في الأداء عند استخدام PDR بالاشتراك مع خليط من دوال softmax، حيث تحقق درجة حيرة على مستوى الكلمات قدرها 53.8 و60.5在这两个数据集上。此外,我们的方法在Penn Treebank字符数据集上的字符级语言模型中实现了1.169比特/字符。这些结果在其各自的设置中构成了新的最先进水平。注:在最后一句中,“在这两个数据集上”这句话在阿拉伯语中通常会放在句子的末尾,以符合阿拉伯语的表达习惯。因此,建议将其调整为:بالإضافة إلى ذلك،تحقق طريقة التنظيم الخاصة بنا 1.169 بت لكل حرف في مجموعة بيانات Penn Treebank Character لنمذجة اللغة على مستوى الحروف. هذه النتائج تشكل مستوى جديدًا من التقدم في إعداداتها الخاصة بها.这样整个段落的翻译就更加符合阿拉伯语的阅读习惯了。