HyperAI

ويكيبيديا مجموعة بيانات ويكيبيديا

التاريخ

منذ عام واحد

الحجم

57.98 GB

المؤسسة

رابط النشر

huggingface.co

الترخيص

CC BY-NC-SA 3.0

ملخص مجموعة البيانات

تحتوي مجموعة بيانات ويكيبيديا على مقالات منقحة بجميع اللغات.

يتم توفير هذه المجموعة من البيانات بواسطة مقالب ويكيبيديا  بناء، مع مجموعة فرعية واحدة لكل لغة وكل مجموعة فرعية متصلة بتقسيم العمود.

يحتوي كل مثال على محتوى مقالة ويكيبيديا كاملة، تم تنظيفها لإزالة العلامات والأجزاء غير المرغوب فيها (مثل "المراجع"، وما إلى ذلك).

تصور البيانات

انقر أطلس نوميك  خريطة توضح 6.4 مليون عينة من تقسيم 20231101.en.

معلومات الترخيص

معلومات ترخيص حقوق النشر:https://dumps.wikimedia.org/legal.html

يعتمد كل محتوى النص الأصلي على رخصة التوثيق الحرة جنو (GFDL) ورخصة المشاع الإبداعي المنسوبة - المشاركة بالمثل 3.0التفويض. قد يكون بعض النصوص متاحًا بموجب ترخيص Creative Commons فقط؛ انظر لهمشروط الاستخدام. قد يتم إصدار بعض النصوص التي كتبها المؤلفون بموجب تراخيص إضافية أو دخولها إلى المجال العام.

wikipedia.torrent
البذر 1التنزيل 1مكتمل 227إجمالي التنزيلات 530
  • wikipedia/
    • README.md
      1.54 KB
    • README.txt
      3.09 KB
      • data/
        • wikipedia.zip
          57.98 GB