HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات نصية مفتوحة واسعة النطاق من مجموعة مشتركة

Discuss on Discord

تعتبر Common Corpus مجموعة بيانات نصية مفتوحة واسعة النطاق، ونتائج الورقة ذات الصلة هي:مجموعة البيانات المشتركة: أكبر مجموعة من البيانات الأخلاقية للتدريب المسبق على ماجستير القانونتحتوي هذه المجموعة من البيانات فقط على بيانات خالية من حقوق النشر أو مرخصة بموجب ترخيص لتجنب مخاطر الملكية الفكرية. وهي حاليًا أكبر مجموعة بيانات نصية مفتوحة الترخيص.

تحتوي مجموعة البيانات على تريليوني رمز، تغطي الكتب والمؤلفات العلمية والرموز والوثائق القانونية ومجالات أخرى. اللغتان الرئيسيتان هما الإنجليزية والفرنسية. كما تشمل 8 لغات تضم أكثر من 10 مليارات رمز (الألمانية/الإسبانية/الإيطالية، إلخ)، و33 لغة تضم أكثر من مليار رمز.

المجموعة الأساسية من مجموعة البيانات:

  • OpenCulture: كتب المجال العام، والصحف (على سبيل المثال Wikisource، وProject Gutenberg)، والوثائق التاريخية مع تصحيحات التعرف الضوئي على الحروف.
  • الحكومة المفتوحة: الوثائق القانونية والإدارية (على سبيل المثال تقارير هيئة الأوراق المالية والبورصات، وملفات منظمة التجارة العالمية، وبيانات البرلمان الأوروبي).
  • مفتوح المصدر: كود GitHub عالي الجودة، وأفضل 80% المقدمة عالية الجودة تم فحصها بواسطة أداة ArmoRM.
  • OpenScience: الموارد الأكاديمية مثل OpenAlex، التي تحتفظ بالمعلومات المنظمة مثل الصيغ والرسوم البيانية.
  • OpenWeb: نصوص الويب مثل Wikipedia، وYouTube Commons، وStack Exchange، وما إلى ذلك.
  • OpenSemantic: النسخ الطبيعي للغة الثلاثية الدلالية من Wikidata، ويدعم أكثر من 300 لغة.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp