HyperAIHyperAI
منذ 17 أيام

نمذجة اللغة باستخدام الشبكات العصبية مع ميزات تعتمد على الحروف وعينة الأهمية

{Xie Chen, Sanjeev Khudanpur, Ke Li, Jian Wang, Yiming Wang, Daniel Povey, Hainan Xu, Shiyin Kang}
الملخص

في هذه الورقة، نُقدّم تمديدًا لأداة Kaldi البرمجية لدعم النمذجة اللغوية القائمة على الشبكات العصبية، وذلك للاستخدام في التعرف التلقائي على الكلام (ASR) والمهام المرتبطة بها. ندمج استخدام الميزات الجزئية (مثل n-grams الحرفية) مع الترميز الواحد-الصفر (one-hot encoding) للكلمات الشائعة، بحيث تتمكن النماذج من التعامل مع قوامٍ لغوية كبيرة تحتوي على كلمات نادرة. ونُقدّم دالة هدف جديدة تُمكّن من تدريب الاحتمالات غير المُعدّلة (unnormalized probabilities). كما تدعم الأداة طريقة استخلاص العينات المهمة (importance sampling) لتسريع عملية التدريب عند اتساع القاموس. أظهرت النتائج التجريبية على خمسة مجموعات بيانات أن Kaldi-RNNLM تُنافس أدوات النمذجة اللغوية القائمة على الشبكات العصبية المتكررة الأخرى من حيث الأداء وسرعة التدريب.

نمذجة اللغة باستخدام الشبكات العصبية مع ميزات تعتمد على الحروف وعينة الأهمية | أحدث الأوراق البحثية | HyperAI