HyperAI

مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText

تحتوي مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد على WikiText على 100 مليون كلمة إنجليزية، والتي تأتي من مقالات ويكيبيديا عالية الجودة ومقالات مرجعية.

تنقسم مجموعة البيانات إلى نسختين: WikiText-2 وWikiText-103. وبالمقارنة مع مفردات PTB، فهي أكبر حجمًا وتحتفظ كل كلمة أيضًا بالمقالة الأصلية ذات الصلة، وهو أمر مناسب للسيناريوهات التي تتطلب الاعتماد طويل الأمد على نمذجة اللغة الطبيعية.

تم إصدار مجموعة البيانات هذه بواسطة Salesforce Research في عام 2016، وكان الناشرون الرئيسيون هم Stephen Merity وCaiming Xiong وJames Bradbury وRichard Socher. الورقة ذات الصلة هي "نماذج خليط مؤشر الحارس".

WikiText Long Term Dependency Language Modeling Dataset.torrent
البذر 4التنزيل 0مكتمل 1,080إجمالي التنزيلات 2,080
  • WikiText Long Term Dependency Language Modeling Dataset/
    • README.md
      1.46 KB
    • README.txt
      2.92 KB
      • data/
        • wikitext-103-raw-v1.zip
          183.09 MB
        • wikitext-103-v1.zip
          364.51 MB
        • wikitext-2-raw-v1.zip
          369.01 MB
        • wikitext-2-v1.zip
          373.28 MB
        • 新建文本文档.txt
          373.28 MB