التاريخ

منذ عام واحد

رابط الورقة البحثية

الوسوم

تعتبر Common Corpus مجموعة بيانات نصية مفتوحة واسعة النطاق، ونتائج الورقة ذات الصلة هي:مجموعة البيانات المشتركة: أكبر مجموعة من البيانات الأخلاقية للتدريب المسبق على ماجستير القانونتحتوي هذه المجموعة من البيانات فقط على بيانات خالية من حقوق النشر أو مرخصة بموجب ترخيص لتجنب مخاطر الملكية الفكرية. وهي حاليًا أكبر مجموعة بيانات نصية مفتوحة الترخيص. تحتوي مجموعة البيانات على تريليوني رمز، تغطي الكتب والمؤلفات العلمية والرموز والوثائق القانونية ومجالات أخرى. اللغتان الرئيسيتان هما الإنجليزية والفرنسية. كما تشمل 8 لغات تضم أكثر من 10 مليارات رمز (الألمانية/الإسبانية/الإيطالية، إلخ)، و33 لغة تضم أكثر من مليار رمز.

المجموعة الأساسية من مجموعة البيانات:

OpenCulture: كتب المجال العام، والصحف (على سبيل المثال Wikisource، وProject Gutenberg)، والوثائق التاريخية مع تصحيحات التعرف الضوئي على الحروف.
الحكومة المفتوحة: الوثائق القانونية والإدارية (على سبيل المثال تقارير هيئة الأوراق المالية والبورصات، وملفات منظمة التجارة العالمية، وبيانات البرلمان الأوروبي).
مفتوح المصدر: كود GitHub عالي الجودة، وأفضل 80% المقدمة عالية الجودة تم فحصها بواسطة أداة ArmoRM.
OpenScience: الموارد الأكاديمية مثل OpenAlex، التي تحتفظ بالمعلومات المنظمة مثل الصيغ والرسوم البيانية.
OpenWeb: نصوص الويب مثل Wikipedia، وYouTube Commons، وStack Exchange، وما إلى ذلك.
OpenSemantic: النسخ الطبيعي للغة الثلاثية الدلالية من Wikidata، ويدعم أكثر من 300 لغة.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

ناقش على Discord

التاريخ

منذ عام واحد

رابط الورقة البحثية

arxiv.org

الوسوم

LLM

معالجة اللغة الطبيعية

توليد النص

تدريب النموذج

المجموعة الأساسية من مجموعة البيانات:

OpenCulture: كتب المجال العام، والصحف (على سبيل المثال Wikisource، وProject Gutenberg)، والوثائق التاريخية مع تصحيحات التعرف الضوئي على الحروف.
الحكومة المفتوحة: الوثائق القانونية والإدارية (على سبيل المثال تقارير هيئة الأوراق المالية والبورصات، وملفات منظمة التجارة العالمية، وبيانات البرلمان الأوروبي).
مفتوح المصدر: كود GitHub عالي الجودة، وأفضل 80% المقدمة عالية الجودة تم فحصها بواسطة أداة ArmoRM.
OpenScience: الموارد الأكاديمية مثل OpenAlex، التي تحتفظ بالمعلومات المنظمة مثل الصيغ والرسوم البيانية.
OpenWeb: نصوص الويب مثل Wikipedia، وYouTube Commons، وStack Exchange، وما إلى ذلك.
OpenSemantic: النسخ الطبيعي للغة الثلاثية الدلالية من Wikidata، ويدعم أكثر من 300 لغة.

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

منذ 2 أشهر

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

منذ 3 أشهر

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

منذ 3 أشهر

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

منذ 3 أشهر

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

منذ 2 أيام

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

منذ 5 أشهر

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

منذ 5 أشهر

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

منذ 5 أشهر

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

منذ 4 أشهر

مجموعة بيانات إنشاء فيديو RoVid-X Robot

منذ 2 أيام

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

منذ 2 أيام

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

منذ 2 أيام

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

منذ 2 أيام

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات نصية مفتوحة واسعة النطاق من مجموعة مشتركة

المجموعة الأساسية من مجموعة البيانات:

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات نصية مفتوحة واسعة النطاق من مجموعة مشتركة

المجموعة الأساسية من مجموعة البيانات:

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات نصية مفتوحة واسعة النطاق من مجموعة مشتركة

المجموعة الأساسية من مجموعة البيانات:

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts