
يُعد التعميم بالتأكيد الهدف الأهم في أبحاث نمذجة اللغة الإحصائية. كانت المعايير العامة المتاحة للجمهور والدراسات المنشورة مع كود مفتوح المصدر حاسمة في دفع عجلة التقدم في هذا المجال. ومع ذلك، غالبًا ما يكون من الصعب جدًا، بل وأحيانًا مستحيلًا، إعادة إنتاج النتائج بالكامل كما وردت في المنشورات. في هذه الورقة، نقترح إطارًا بسيطًا من شأنه أن يساعد في تطوير الحالة الراهنة في نمذجة اللغة من حيث التعميم. نقترح نشر ليس فقط الكود، ولكن أيضًا الاحتمالات على مجموعات التحقق والاختبار مع المنشورات المستقبلية، بحيث يمكن للآخرين إدراج النموذج الجديد بسهولة في تجميع (Ensemble) نماذج موجودة. ولدى هذا النهج مزايا جوهرية: أصبح من الأسهل بكثير تحديد ما إذا كان النموذج المقترح حديثًا فعلاً مكملًا للنموذج الأساسي الحالي. وبالتالي، بدلاً من اختراع أسماء جديدة للتقنيات القديمة، يمكن للمجتمع العلمي التقدم بشكل أسرع. وأخيرًا، يعزز هذا النهج تنوع الأفكار: لا حاجة لإنشاء نموذج فردي يُعدّ الحد الأقصى للحالة الراهنة لجذب الانتباه؛ إذ يكفي تطوير نموذج جديد يتعلم أنماطًا لا تتعلمها النماذج الأخرى. وبذلك، يمكن حتى للنموذج غير الأمثل أن يُكتشف أنه يمتلك قيمة حقيقية. وتجدر الإشارة إلى أن نهجنا قد أسفر عن نتائج جديدة تُعدّ الأفضل في مجالات متعددة لاختبارات نمذجة اللغة، بزيادة تصل إلى 10٪.