Command Palette
Search for a command to run...
Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B
Sutra 10B Pretraining est un jeu de données pédagogique de haute qualité destiné au préentraînement de grands modèles de langage. Généré par le framework Sutra, il crée du contenu éducatif structuré et optimise le préentraînement des modèles de langage. Il s'agit du plus grand jeu de données de la série Sutra, conçu pour démontrer comment des jeux de données denses et bien organisés peuvent offrir des performances de préentraînement optimales pour les petits modèles de langage. Cet ensemble de données contient 10 193 029 enregistrements d'enseignement, soit plus de 10 milliards d'éléments, couvrant neuf grands domaines : interdisciplinarité, technologie, sciences, sciences sociales, mathématiques, compétences de vie, arts et créativité, lettres et littératures, et philosophie et éthique. Les données suivent un modèle pédagogique éprouvé, avec 10 niveaux de difficulté, du niveau débutant au niveau avancé, témoignant d'une hiérarchie claire et d'une organisation systématique.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.