HyperAIHyperAI

Command Palette

Search for a command to run...

معيار مليار كلمة لقياس التقدم في نماذج اللغة الإحصائية

Ciprian Chelba Tomas Mikolov Mike Schuster Qi Ge Thorsten Brants Phillipp Koehn Tony Robinson

الملخص

نقترح معيارًا جديدًا للتوثيق يستخدم لقياس التقدم في نماذج اللغة الإحصائية. مع ما يقارب مليار كلمة من بيانات التدريب، نأمل أن يكون هذا المعيار مفيدًا لتقييم سريع للتقنيات الجديدة في نمذجة اللغة، ولمقارنة مساهمتها عند دمجها مع تقنيات متقدمة أخرى. نوضح أداء عدة أنواع معروفة من نماذج اللغة، حيث حقق أفضل النتائج نموذج اللغة القائم على الشبكة العصبية المتكررة (Recurrent Neural Network). يحقق النموذج الخطي غير المقتطع كنسير-ناي (Kneser-Ney) ذو الخمس كلمات حيرة (perplexity) قدرها 67.6؛ بينما يؤدي الجمع بين التقنيات إلى تقليل الحيرة بنسبة 35٪، أو تقليل الانتروبيا المتقاطعة (البتات) بنسبة 10٪، مقارنة بالنموذج الخطي الأساسي.المعيار متاح كمشروع على موقع code.google.com؛ بالإضافة إلى النصوص اللازمة لإعادة بناء بيانات التدريب والبيانات المحتجزة، فإنه يوفر أيضًا قيم الاحتمال اللوغاريتمي لكل كلمة في كل من العشرة مجموعات البيانات المحتجزة، لكل من النماذج الخطيّة الأساسية ذات n-كلمات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp