HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة مشتركة

Discuss on Discord

Date

منذ عام واحد

Organization

License

Non-Commercial

مجموعة البيانات المشتركة (Common Corpus) هي مجموعة بيانات نصية كبيرة ومفتوحة ومرخصة، تضم أكثر من تريليوني رمز، أصدرتها PleIAs في عام ٢٠٢٤. تتكون المجموعة من خمس مجموعات فرعية متنوعة تغطي أنواعًا متنوعة من النصوص، بما في ذلك الكتب والصحف والمقالات العلمية والوثائق الحكومية والقانونية والرموز، وغيرها. المجموعات الفرعية الخمس هي:

  • الثقافة المفتوحة:يحتوي على كتب وصحف ومحتوى ويكي مصدر من المجال العام.
  • الحكومة المفتوحة:تحتوي على وثائق مالية وقانونية، مثل تلك الصادرة عن هيئة الأوراق المالية والبورصات ومنظمة التجارة العالمية.
  • مفتوح المصدر:يحتوي على كود عالي الجودة على GitHub.
  • العلوم المفتوحة:يحتوي على محتوى أكاديمي مثل Open Alex والأوراق الفرنسية.
  • شبكة الويب المفتوحة:يحتوي على محتوى من مواقع مثل Wikipedia وYouTube Commons وStack Exchange.

يمكن استخدام بيانات Common Corpus للأغراض التجارية وغير التجارية، كما أنها تدعم تصفية البيانات حسب اللغة والسنة. على الرغم من تجريد مجموعة البيانات من المحتوى السام للغاية والمعلومات الشخصية القابلة للتعريف، إلا أنه قد لا تزال هناك بعض التحيزات والمعلومات الحساسة. ويأتي إصدار مجموعة البيانات مصحوبًا بتقرير فني مفصل، مما يضمن الشفافية وإمكانية إعادة الإنتاج. يتم دعم Common Corpus من قبل العديد من المنظمات والمجتمعات بما في ذلك AI Alliance، وJean Zay، وبرنامج Nvidia Inception.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp