التاريخ

منذ 2 أعوام

المؤسسة

الترخيص

Non-Commercial

الوسوم

مجموعة البيانات المشتركة (Common Corpus) هي مجموعة بيانات نصية كبيرة ومفتوحة ومرخصة، تضم أكثر من تريليوني رمز، أصدرتها PleIAs في عام ٢٠٢٤. تتكون المجموعة من خمس مجموعات فرعية متنوعة تغطي أنواعًا متنوعة من النصوص، بما في ذلك الكتب والصحف والمقالات العلمية والوثائق الحكومية والقانونية والرموز، وغيرها. المجموعات الفرعية الخمس هي:

الثقافة المفتوحة:يحتوي على كتب وصحف ومحتوى ويكي مصدر من المجال العام.
الحكومة المفتوحة:تحتوي على وثائق مالية وقانونية، مثل تلك الصادرة عن هيئة الأوراق المالية والبورصات ومنظمة التجارة العالمية.
مفتوح المصدر:يحتوي على كود عالي الجودة على GitHub.
العلوم المفتوحة:يحتوي على محتوى أكاديمي مثل Open Alex والأوراق الفرنسية.
شبكة الويب المفتوحة:يحتوي على محتوى من مواقع مثل Wikipedia وYouTube Commons وStack Exchange. يمكن استخدام بيانات Common Corpus للأغراض التجارية وغير التجارية، كما أنها تدعم تصفية البيانات حسب اللغة والسنة. على الرغم من تجريد مجموعة البيانات من المحتوى السام للغاية والمعلومات الشخصية القابلة للتعريف، إلا أنه قد لا تزال هناك بعض التحيزات والمعلومات الحساسة. ويأتي إصدار مجموعة البيانات مصحوبًا بتقرير فني مفصل، مما يضمن الشفافية وإمكانية إعادة الإنتاج. يتم دعم Common Corpus من قبل العديد من المنظمات والمجتمعات بما في ذلك AI Alliance، وJean Zay، وبرنامج Nvidia Inception.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

ناقش على Discord

التاريخ

منذ 2 أعوام

المؤسسة

الترخيص

Non-Commercial

الوسوم

LLM

معالجة اللغة الطبيعية

توليد الشفرة

الثقافة المفتوحة:يحتوي على كتب وصحف ومحتوى ويكي مصدر من المجال العام.
الحكومة المفتوحة:تحتوي على وثائق مالية وقانونية، مثل تلك الصادرة عن هيئة الأوراق المالية والبورصات ومنظمة التجارة العالمية.
مفتوح المصدر:يحتوي على كود عالي الجودة على GitHub.
العلوم المفتوحة:يحتوي على محتوى أكاديمي مثل Open Alex والأوراق الفرنسية.
شبكة الويب المفتوحة:يحتوي على محتوى من مواقع مثل Wikipedia وYouTube Commons وStack Exchange. يمكن استخدام بيانات Common Corpus للأغراض التجارية وغير التجارية، كما أنها تدعم تصفية البيانات حسب اللغة والسنة. على الرغم من تجريد مجموعة البيانات من المحتوى السام للغاية والمعلومات الشخصية القابلة للتعريف، إلا أنه قد لا تزال هناك بعض التحيزات والمعلومات الحساسة. ويأتي إصدار مجموعة البيانات مصحوبًا بتقرير فني مفصل، مما يضمن الشفافية وإمكانية إعادة الإنتاج. يتم دعم Common Corpus من قبل العديد من المنظمات والمجتمعات بما في ذلك AI Alliance، وJean Zay، وبرنامج Nvidia Inception.

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

منذ 3 أشهر

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

منذ 8 أيام

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

منذ 8 أيام

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

منذ 8 أيام

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة مشتركة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة مشتركة

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة مشتركة

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro