HyperAI

مجموعة بيانات نصية مفتوحة واسعة النطاق من مجموعة مشتركة

التاريخ

منذ 7 أيام

رابط النشر

huggingface.co

العلامات

مساعدة التنزيل

تعتبر Common Corpus مجموعة بيانات نصية مفتوحة واسعة النطاق، ونتائج الورقة ذات الصلة هي:مجموعة البيانات المشتركة: أكبر مجموعة من البيانات الأخلاقية للتدريب المسبق على ماجستير القانونتحتوي هذه المجموعة من البيانات فقط على بيانات خالية من حقوق النشر أو مرخصة بموجب ترخيص لتجنب مخاطر الملكية الفكرية. وهي حاليًا أكبر مجموعة بيانات نصية مفتوحة الترخيص.

تحتوي مجموعة البيانات على تريليوني رمز، تغطي الكتب والمؤلفات العلمية والرموز والوثائق القانونية ومجالات أخرى. اللغتان الرئيسيتان هما الإنجليزية والفرنسية. كما تشمل 8 لغات تضم أكثر من 10 مليارات رمز (الألمانية/الإسبانية/الإيطالية، إلخ)، و33 لغة تضم أكثر من مليار رمز.

المجموعة الأساسية من مجموعة البيانات:

  • OpenCulture: كتب المجال العام، والصحف (على سبيل المثال Wikisource، وProject Gutenberg)، والوثائق التاريخية مع تصحيحات التعرف الضوئي على الحروف.
  • الحكومة المفتوحة: الوثائق القانونية والإدارية (على سبيل المثال تقارير هيئة الأوراق المالية والبورصات، وملفات منظمة التجارة العالمية، وبيانات البرلمان الأوروبي).
  • مفتوح المصدر: كود GitHub عالي الجودة، وأفضل 80% المقدمة عالية الجودة تم فحصها بواسطة أداة ArmoRM.
  • OpenScience: الموارد الأكاديمية مثل OpenAlex، التي تحتفظ بالمعلومات المنظمة مثل الصيغ والرسوم البيانية.
  • OpenWeb: نصوص الويب مثل Wikipedia، وYouTube Commons، وStack Exchange، وما إلى ذلك.
  • OpenSemantic: النسخ الطبيعي للغة الثلاثية الدلالية من Wikidata، ويدعم أكثر من 300 لغة.