Command Palette
Search for a command to run...
Ensemble De Données d'alignement De Haute Qualité Filtré Magpie-Pro-300K
Date
Taille
URL du document

L'ensemble de données Magpie-Pro-300K-Filtered est un ensemble de données d'instructions de haute qualité synthétisé à l'aide de la méthode Magpie, extrait de Llama-3 70B. Cet ensemble de données contient environ 300 000 conversations de haute qualité, générées via un processus d'auto-synthèse automatisé qui exploite les propriétés autorégressives des LLM alignés pour générer des requêtes utilisateur et des réponses correspondantes.
Cet ensemble de données est fourni par Llama 3 70B Instruct utiliser Pie générer. Voir aussipapieretBase de codepour plus de détails.
Ce sont les données filtrées. Veuillez ne pas utiliser à la fois Magpie-Pro-300K-Filtered et Magpie-Pro-MT-300K pour affiner le modèle, car ils sont à peu près les mêmes au premier tour.
Contexte du jeu de données
Le projet Magpie-align est une méthode d'auto-synthèse permettant de synthétiser des données d'instructions de haute qualité directement à partir de grands modèles de langage (LLM) eux-mêmes, nommé Magpie. L'idée clé de ce projet est d'exploiter les propriétés autorégressives des LLM alignés (tels que Llama-3-Instruct) pour générer des requêtes utilisateur en saisissant uniquement des modèles de pré-requête. Grâce à cette approche, Magpie est capable de générer des millions d’instructions et leurs réponses correspondantes, et de sélectionner des instances de haute qualité parmi elles pour former un ensemble de données.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.