معيار مليار كلمة لقياس التقدم في نماذج اللغة الإحصائية

نقترح معيارًا جديدًا للتوثيق يستخدم لقياس التقدم في نماذج اللغة الإحصائية. مع ما يقارب مليار كلمة من بيانات التدريب، نأمل أن يكون هذا المعيار مفيدًا لتقييم سريع للتقنيات الجديدة في نمذجة اللغة، ولمقارنة مساهمتها عند دمجها مع تقنيات متقدمة أخرى. نوضح أداء عدة أنواع معروفة من نماذج اللغة، حيث حقق أفضل النتائج نموذج اللغة القائم على الشبكة العصبية المتكررة (Recurrent Neural Network). يحقق النموذج الخطي غير المقتطع كنسير-ناي (Kneser-Ney) ذو الخمس كلمات حيرة (perplexity) قدرها 67.6؛ بينما يؤدي الجمع بين التقنيات إلى تقليل الحيرة بنسبة 35٪، أو تقليل الانتروبيا المتقاطعة (البتات) بنسبة 10٪، مقارنة بالنموذج الخطي الأساسي.المعيار متاح كمشروع على موقع code.google.com؛ بالإضافة إلى النصوص اللازمة لإعادة بناء بيانات التدريب والبيانات المحتجزة، فإنه يوفر أيضًا قيم الاحتمال اللوغاريتمي لكل كلمة في كل من العشرة مجموعات البيانات المحتجزة، لكل من النماذج الخطيّة الأساسية ذات n-كلمات.