HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة مشتركة

ناقش على Discord

التاريخ

منذ عام واحد

المؤسسة

الترخيص

Non-Commercial

مجموعة البيانات المشتركة (Common Corpus) هي مجموعة بيانات نصية كبيرة ومفتوحة ومرخصة، تضم أكثر من تريليوني رمز، أصدرتها PleIAs في عام ٢٠٢٤. تتكون المجموعة من خمس مجموعات فرعية متنوعة تغطي أنواعًا متنوعة من النصوص، بما في ذلك الكتب والصحف والمقالات العلمية والوثائق الحكومية والقانونية والرموز، وغيرها. المجموعات الفرعية الخمس هي:

  • الثقافة المفتوحة:يحتوي على كتب وصحف ومحتوى ويكي مصدر من المجال العام.
  • الحكومة المفتوحة:تحتوي على وثائق مالية وقانونية، مثل تلك الصادرة عن هيئة الأوراق المالية والبورصات ومنظمة التجارة العالمية.
  • مفتوح المصدر:يحتوي على كود عالي الجودة على GitHub.
  • العلوم المفتوحة:يحتوي على محتوى أكاديمي مثل Open Alex والأوراق الفرنسية.
  • شبكة الويب المفتوحة:يحتوي على محتوى من مواقع مثل Wikipedia وYouTube Commons وStack Exchange.

يمكن استخدام بيانات Common Corpus للأغراض التجارية وغير التجارية، كما أنها تدعم تصفية البيانات حسب اللغة والسنة. على الرغم من تجريد مجموعة البيانات من المحتوى السام للغاية والمعلومات الشخصية القابلة للتعريف، إلا أنه قد لا تزال هناك بعض التحيزات والمعلومات الحساسة. ويأتي إصدار مجموعة البيانات مصحوبًا بتقرير فني مفصل، مما يضمن الشفافية وإمكانية إعادة الإنتاج. يتم دعم Common Corpus من قبل العديد من المنظمات والمجتمعات بما في ذلك AI Alliance، وJean Zay، وبرنامج Nvidia Inception.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp