نماذج اللغة باستخدام تقدير الاحتمالات النادرة للمصفوفة غير السالبة

نقدم تقنية جديدة لتقدير نماذج اللغة (LM) تُعرف باسم تقدير المصفوفة النادرة غير السالبة (Sparse Non-negative Matrix - SNM). تظهر مجموعة أولى من التجارب التي تم تقييمها بشكل تجريبي على معيار مليار كلمة أن نماذج SNM-$n$-gram أداءها يكاد يكون مماثلاً لأداء النماذج المعروفة جيدًا كنيسر-ني (Kneser-Ney - KN). عند استخدام خصائص skip-gram، تكون هذه النماذج قادرة على مطابقة أفضل النتائج المعاصرة لنماذج اللغة العصبية التكرارية (Recurrent Neural Network - RNN). الجمع بين هاتين التقنيتين في التقدير يُنتج أفضل النتائج المعروفة على هذا المعيار. ربما تكون المزايا الحسابية لـ SNM على كل من تقدير نماذج الانتروبيا القصوى وتقدير نماذج RNN هي قوتها الرئيسية، حيث تعد بنهج يتمتع بنفس المرونة في دمج الخصائصbitrary بشكل فعال ويجب أن يتناسب مع كميات كبيرة جداً من البيانات بنفس سهولة تناسب نماذج $n$-gram.