مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText
تحتوي مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد على WikiText على 100 مليون كلمة إنجليزية، والتي تأتي من مقالات ويكيبيديا عالية الجودة ومقالات مرجعية.
تنقسم مجموعة البيانات إلى نسختين: WikiText-2 وWikiText-103. وبالمقارنة مع مفردات PTB، فهي أكبر حجمًا وتحتفظ كل كلمة أيضًا بالمقالة الأصلية ذات الصلة، وهو أمر مناسب للسيناريوهات التي تتطلب الاعتماد طويل الأمد على نمذجة اللغة الطبيعية.
تم إصدار مجموعة البيانات هذه بواسطة Salesforce Research في عام 2016، وكان الناشرون الرئيسيون هم Stephen Merity وCaiming Xiong وJames Bradbury وRichard Socher. الورقة ذات الصلة هي "نماذج خليط مؤشر الحارس".
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.