منذ 7 أشهر

الملخص

نقترح معيارًا جديدًا للتوثيق يستخدم لقياس التقدم في نماذج اللغة الإحصائية. مع ما يقارب مليار كلمة من بيانات التدريب، نأمل أن يكون هذا المعيار مفيدًا لتقييم سريع للتقنيات الجديدة في نمذجة اللغة، ولمقارنة مساهمتها عند دمجها مع تقنيات متقدمة أخرى. نوضح أداء عدة أنواع معروفة من نماذج اللغة، حيث حقق أفضل النتائج نموذج اللغة القائم على الشبكة العصبية المتكررة (Recurrent Neural Network). يحقق النموذج الخطي غير المقتطع كنسير-ناي (Kneser-Ney) ذو الخمس كلمات حيرة (perplexity) قدرها 67.6؛ بينما يؤدي الجمع بين التقنيات إلى تقليل الحيرة بنسبة 35٪، أو تقليل الانتروبيا المتقاطعة (البتات) بنسبة 10٪، مقارنة بالنموذج الخطي الأساسي.المعيار متاح كمشروع على موقع code.google.com؛ بالإضافة إلى النصوص اللازمة لإعادة بناء بيانات التدريب والبيانات المحتجزة، فإنه يوفر أيضًا قيم الاحتمال اللوغاريتمي لكل كلمة في كل من العشرة مجموعات البيانات المحتجزة، لكل من النماذج الخطيّة الأساسية ذات n-كلمات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار