التاريخ

منذ 2 أعوام

الحجم

225.16 MB

المؤسسة

الوسوم

تم إنشاء Common Corpus بشكل مشترك من قبل Pleias وHuggingFace ومنظمات أخرى.**إنها أكبر مجموعة بيانات متاحة في المجال العام حاليًا.**تم تصميمه خصيصًا لتدريب نماذج اللغة الكبيرة (LLMs).**تحتوي مجموعة البيانات على 500 مليار كلمة من مشاريع التراث الثقافي المتنوعة حول العالم.**ويضم لغات متعددة منها الإنجليزية والفرنسية والصينية والإسبانية والألمانية والإيطالية، وهو مكتبة الموارد اللغوية الأكثر شمولاً حتى الآن. تحتوي على أكبر مجموعة بيانات باللغة الإنجليزية حتى الآن، بما في ذلك 180 مليار كلمة، و21 مليون وثيقة من Chronicling America، وهو مشروع رئيسي لصحيفة رقمية أمريكية، وخرائط أصلية لمجموعة Nomic AI، وبيانات أحادية جمعها سيباستيان ماجستوروفيتش. بالإضافة إلى ذلك، يتضمن Common Corpus أكبر مجموعات البيانات المفتوحة للغة الفرنسية (110 مليار كلمة)، والألمانية (30 مليار كلمة)، والإسبانية، والهولندية، والإيطالية، بالإضافة إلى بعض اللغات ذات الموارد المنخفضة والتي نادرًا ما تشارك في تدريب نماذج اللغات الكبيرة. يوضح إطلاق مجموعة البيانات هذه أنه من الممكن تدريب طلاب الماجستير في القانون حتى دون الاعتماد على محتوى مقيد بحقوق الطبع والنشر مثل Common Crawl. ويهدف المشروع إلى بناء منصة قوية لتبادل بيانات الذكاء الاصطناعي، وتبسيط عملية البحث، وتحسين إمكانية إعادة إنتاج البحث، وتعزيز نشر الذكاء الاصطناعي وتنوعه وديمقراطيته، وضمان نشر المعرفة وتطبيق النماذج الكبيرة.

Common-Corpus-zh.torrent

البذر 1جارٍ التنزيل 0مكتمل 153إجمالي التنزيلات 404

Common-Corpus-zh/
- README.md
  1.93 KB
- README.txt
  3.86 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ 2 أعوام

الحجم

225.16 MB

المؤسسة

الوسوم

معالجة اللغة الطبيعية

Common-Corpus-zh.torrent

البذر 1جارٍ التنزيل 0مكتمل 153إجمالي التنزيلات 404

Common-Corpus-zh/
- README.md
  1.93 KB
- README.txt
  3.86 KB

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

منذ 2 أشهر

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

منذ 3 أشهر

مجموعة بيانات الشخصيات الاصطناعية البرازيلية Nemotron-Personas-Brazil

منذ 5 أشهر

مجموعة بيانات إنشاء فيديو RoVid-X Robot

منذ 2 أشهر

مجموعة بيانات تجزئة المرضى

منذ 5 أشهر

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

منذ 6 أشهر

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

منذ 6 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات المجال العام الصينية المشتركة Corpus-zh

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات المجال العام الصينية المشتركة Corpus-zh

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات الشخصيات الاصطناعية البرازيلية Nemotron-Personas-Brazil

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تجزئة المرضى

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات المجال العام الصينية المشتركة Corpus-zh

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات الشخصيات الاصطناعية البرازيلية Nemotron-Personas-Brazil

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تجزئة المرضى

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات الشخصيات الاصطناعية البرازيلية Nemotron-Personas-Brazil

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تجزئة المرضى

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعات البيانات ذات الصلة

Nemotron Personas France (مجموعة بيانات الشخصيات الاصطناعية الفرنسية)

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات الشخصيات الاصطناعية البرازيلية Nemotron-Personas-Brazil

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تجزئة المرضى

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts