HyperAIHyperAI

Command Palette

Search for a command to run...

Console

مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText

التاريخ

منذ 3 أعوام

الحجم

373.28 MB

المؤسسة

أبحاث Salesforce

عنوان URL للنشر

www.salesforce.com

تحتوي مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد على WikiText على 100 مليون كلمة إنجليزية، والتي تأتي من مقالات ويكيبيديا عالية الجودة ومقالات مرجعية.

تنقسم مجموعة البيانات إلى نسختين: WikiText-2 وWikiText-103. وبالمقارنة مع مفردات PTB، فهي أكبر حجمًا وتحتفظ كل كلمة أيضًا بالمقالة الأصلية ذات الصلة، وهو أمر مناسب للسيناريوهات التي تتطلب الاعتماد طويل الأمد على نمذجة اللغة الطبيعية.

تم إصدار مجموعة البيانات هذه بواسطة Salesforce Research في عام 2016، وكان الناشرون الرئيسيون هم Stephen Merity وCaiming Xiong وJames Bradbury وRichard Socher. الورقة ذات الصلة هي "نماذج خليط مؤشر الحارس".

WikiText Long Term Dependency Language Modeling Dataset.torrent
البذر 4جارٍ التنزيل 0مكتمل 1,255إجمالي التنزيلات 2,271
  • WikiText Long Term Dependency Language Modeling Dataset/
    • README.md
      1.46 KB
    • README.txt
      2.92 KB
      • data/
        • wikitext-103-raw-v1.zip
          183.09 MB
        • wikitext-103-v1.zip
          364.51 MB
        • wikitext-2-raw-v1.zip
          369.01 MB
        • wikitext-2-v1.zip
          373.28 MB
        • 新建文本文档.txt
          373.28 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية بالذكاء الاصطناعي
وحدات معالجة الرسوميات الجاهزة للاستخدام
أفضل تسعير

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText مجموعة بيانات نمذجة اللغة للاعتماد طويل الأمد من WikiText | مجموعات البيانات | HyperAI