HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

التاريخ

منذ 4 ساعات

الترخيص

Apache 2.0

Sutra 10B Pretraining 是一个用于大语言模型预训练的高质量教学数据集,由 Sutra 框架生成,创建了结构化的教育内容,优化了语言模型的预训练。这是 Sutra 系列中最大的一个数据集,旨在展示密集、精心策划的数据集如何为小型语言模型提供最佳的预训练性能。

该数据集共包含 10,193,029 条教学记录,总规模超过 100 亿个 token,涵盖跨学科、技术、科学、社会研究、数学、生活技能、艺术与创意、语言艺术以及哲学与伦理学等九大领域。数据内容遵循成熟的教学范式设计,难度由基础到高级划分为 10 个等级,具备良好的层次性与系统性。

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp