مجموعة مشتركة
التاريخ
رابط النشر
الترخيص
非商业用途
العلامات
الفئات
مجموعة البيانات المشتركة (Common Corpus) هي مجموعة بيانات نصية كبيرة ومفتوحة ومرخصة، تضم أكثر من تريليوني رمز، أصدرتها PleIAs في عام ٢٠٢٤. تتكون المجموعة من خمس مجموعات فرعية متنوعة تغطي أنواعًا متنوعة من النصوص، بما في ذلك الكتب والصحف والمقالات العلمية والوثائق الحكومية والقانونية والرموز، وغيرها. المجموعات الفرعية الخمس هي:
- الثقافة المفتوحة:يحتوي على كتب وصحف ومحتوى ويكي مصدر من المجال العام.
- الحكومة المفتوحة:تحتوي على وثائق مالية وقانونية، مثل تلك الصادرة عن هيئة الأوراق المالية والبورصات ومنظمة التجارة العالمية.
- مفتوح المصدر:يحتوي على كود عالي الجودة على GitHub.
- العلوم المفتوحة:يحتوي على محتوى أكاديمي مثل Open Alex والأوراق الفرنسية.
- شبكة الويب المفتوحة:يحتوي على محتوى من مواقع مثل Wikipedia وYouTube Commons وStack Exchange.
يمكن استخدام بيانات Common Corpus للأغراض التجارية وغير التجارية، كما أنها تدعم تصفية البيانات حسب اللغة والسنة. على الرغم من تجريد مجموعة البيانات من المحتوى السام للغاية والمعلومات الشخصية القابلة للتعريف، إلا أنه قد لا تزال هناك بعض التحيزات والمعلومات الحساسة. ويأتي إصدار مجموعة البيانات مصحوبًا بتقرير فني مفصل، مما يضمن الشفافية وإمكانية إعادة الإنتاج. يتم دعم Common Corpus من قبل العديد من المنظمات والمجتمعات بما في ذلك AI Alliance، وJean Zay، وبرنامج Nvidia Inception.