HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Date

il y a 2 mois

Licence

Apache 2.0

Sutra 10B Pretraining est un jeu de données pédagogique de haute qualité destiné au préentraînement de grands modèles de langage. Généré par le framework Sutra, il crée du contenu éducatif structuré et optimise le préentraînement des modèles de langage. Il s'agit du plus grand jeu de données de la série Sutra, conçu pour démontrer comment des jeux de données denses et bien organisés peuvent offrir des performances de préentraînement optimales pour les petits modèles de langage. Cet ensemble de données contient 10 193 029 enregistrements d'enseignement, soit plus de 10 milliards d'éléments, couvrant neuf grands domaines : interdisciplinarité, technologie, sciences, sciences sociales, mathématiques, compétences de vie, arts et créativité, lettres et littératures, et philosophie et éthique. Les données suivent un modèle pédagogique éprouvé, avec 10 niveaux de difficulté, du niveau débutant au niveau avancé, témoignant d'une hiérarchie claire et d'une organisation systématique.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp