مجموعة بيانات المجال العام الصينية المشتركة Corpus-zh
التاريخ
الحجم
رابط النشر
العلامات
الفئات
تم إنشاء Common Corpus بشكل مشترك من قبل Pleias وHuggingFace ومنظمات أخرى.إنها أكبر مجموعة بيانات متاحة في المجال العام حاليًا.تم تصميمه خصيصًا لتدريب نماذج اللغة الكبيرة (LLMs).تحتوي مجموعة البيانات على 500 مليار كلمة من مشاريع التراث الثقافي المتنوعة حول العالم.ويضم لغات متعددة منها الإنجليزية والفرنسية والصينية والإسبانية والألمانية والإيطالية، وهو مكتبة الموارد اللغوية الأكثر شمولاً حتى الآن.
تحتوي على أكبر مجموعة بيانات باللغة الإنجليزية حتى الآن، بما في ذلك 180 مليار كلمة، و21 مليون وثيقة من Chronicling America، وهو مشروع رئيسي لصحيفة رقمية أمريكية، وخرائط أصلية لمجموعة Nomic AI، وبيانات أحادية جمعها سيباستيان ماجستوروفيتش. بالإضافة إلى ذلك، يتضمن Common Corpus أكبر مجموعات البيانات المفتوحة للغة الفرنسية (110 مليار كلمة)، والألمانية (30 مليار كلمة)، والإسبانية، والهولندية، والإيطالية، بالإضافة إلى بعض اللغات ذات الموارد المنخفضة والتي نادرًا ما تشارك في تدريب نماذج اللغات الكبيرة.
يوضح إطلاق مجموعة البيانات هذه أنه من الممكن تدريب طلاب الماجستير في القانون حتى دون الاعتماد على محتوى مقيد بحقوق الطبع والنشر مثل Common Crawl. ويهدف المشروع إلى بناء منصة قوية لتبادل بيانات الذكاء الاصطناعي، وتبسيط عملية البحث، وتحسين إمكانية إعادة إنتاج البحث، وتعزيز نشر الذكاء الاصطناعي وتنوعه وديمقراطيته، وضمان نشر المعرفة وتطبيق النماذج الكبيرة.