استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ 2 أشهر

الترخيص

Apache 2.0

الوسوم

مجموعة بيانات Sutra 10B Pretraining هي مجموعة بيانات تعليمية عالية الجودة لتدريب نماذج اللغة الكبيرة مسبقًا. يتم إنشاؤها بواسطة إطار عمل Sutra، حيث توفر محتوى تعليميًا منظمًا وتُحسّن عملية تدريب نماذج اللغة. تُعد هذه المجموعة الأكبر في سلسلة Sutra، وهي مصممة لتوضيح كيف يمكن لمجموعات البيانات الكثيفة والمُنسقة جيدًا أن تُوفر أداءً مثاليًا لتدريب نماذج اللغة الصغيرة مسبقًا. تحتوي هذه المجموعة من البيانات على 10,193,029 سجلاً تعليمياً، بإجمالي يزيد عن 10 مليارات كلمة، تغطي تسعة مجالات رئيسية: التخصصات المتداخلة، والتكنولوجيا، والعلوم، والدراسات الاجتماعية، والرياضيات، ومهارات الحياة، والفنون والإبداع، وفنون اللغة، والفلسفة والأخلاق. وتتبع البيانات نموذجاً تعليمياً راسخاً، مع 10 مستويات صعوبة من الأساسي إلى المتقدم، مما يدل على تسلسل هرمي جيد وتنظيم منهجي.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار