HyperAIHyperAI

مجموعة بيانات روابط ويكيبيديا WikiLinks

التاريخ

منذ 2 أعوام

الحجم

1.71 GB

المؤسسة

رابط النشر

code.google.com

رابط الورقة البحثية

web.cs.umass.edu

الترخيص

CC BY-NC-SA 3.0

特色图像

WikiLinks عبارة عن مجموعة بيانات تجعل النص الكامل لـ Wikipedia قابلاً للبحث حسب الفقرة أو العبارة أو جزء من الفقرة نفسها. تعامل مجموعة البيانات كل صفحة على ويكيبيديا على أنها تمثل كيانًا (أو مفهومًا أو فكرة) استنادًا إلى الروابط التشعبية الموجودة من عمليات البحث على الويب وتستخدم نص الرابط كإشارات، مما قد يوفر في النهاية بيانات مصنفة على نطاق واسع دون الحاجة إلى التلاعب البشري.

تتضمن مجموعة البيانات ما يلي:

  • ما يقرب من 1.9 مليار كلمة من أكثر من 4 ملايين مقال
  • 40 مليون إشارة إلى 3 ملايين كيان
  • 10 ملفات نصية مضغوطة data-0000[0-9]-of-00010.gz.

تم إنشاء هذه المجموعة من البيانات في 29 سبتمبر 2012

ويكيلينكس.torrent
البذر 1التنزيل 0مكتمل 664إجمالي التنزيلات 671
  • WikiLinks/
    • README.md
      1.33 KB
    • README.txt
      2.67 KB
      • data/
        • README.txt
          6.86 KB
        • data-00000-of-00010.gz
          175.01 MB
        • data-00001-of-00010.gz
          350.24 MB
        • data-00002-of-00010.gz
          525.45 MB
        • data-00003-of-00010.gz
          700.97 MB
        • data-00004-of-00010.gz
          875.93 MB
        • data-00005-of-00010.gz
          1.03 GB
        • data-00006-of-00010.gz
          1.2 GB
        • data-00007-of-00010.gz
          1.37 GB
        • data-00008-of-00010.gz
          1.54 GB
        • data-00009-of-00010.gz
          1.71 GB