مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText
التاريخ
منذ 2 أعوام
الحجم
373.28 MB
رابط النشر
تحتوي مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد على WikiText على 100 مليون كلمة إنجليزية، والتي تأتي من مقالات ويكيبيديا عالية الجودة ومقالات مرجعية.
تنقسم مجموعة البيانات إلى نسختين: WikiText-2 وWikiText-103. وبالمقارنة مع مفردات PTB، فهي أكبر حجمًا وتحتفظ كل كلمة أيضًا بالمقالة الأصلية ذات الصلة، وهو أمر مناسب للسيناريوهات التي تتطلب الاعتماد طويل الأمد على نمذجة اللغة الطبيعية.
تم إصدار مجموعة البيانات هذه بواسطة Salesforce Research في عام 2016، وكان الناشرون الرئيسيون هم Stephen Merity وCaiming Xiong وJames Bradbury وRichard Socher. الورقة ذات الصلة هي "نماذج خليط مؤشر الحارس".
WikiText Long Term Dependency Language Modeling Dataset.torrent
البذر 4التنزيل 0مكتمل 1,080إجمالي التنزيلات 2,080