Command Palette
Search for a command to run...
Ensemble De Données d'alignement De Haute Qualité Filtré Magpie-Pro-300K

L'ensemble de données Magpie-Pro-300K-Filtered est un ensemble de données d'instructions de haute qualité synthétisé à l'aide de la méthode Magpie, extrait de Llama-3 70B. Cet ensemble de données contient environ 300 000 conversations de haute qualité, générées via un processus d'auto-synthèse automatisé qui exploite les propriétés autorégressives des LLM alignés pour générer des requêtes utilisateur et des réponses correspondantes.
Cet ensemble de données est fourni par Llama 3 70B Instruct utiliser Pie générer. Voir aussipapieretBase de codepour plus de détails.
Ce sont les données filtrées. Veuillez ne pas utiliser à la fois Magpie-Pro-300K-Filtered et Magpie-Pro-MT-300K pour affiner le modèle, car ils sont à peu près les mêmes au premier tour.
Contexte du jeu de données
Le projet Magpie-align est une méthode d'auto-synthèse permettant de synthétiser des données d'instructions de haute qualité directement à partir de grands modèles de langage (LLM) eux-mêmes, nommé Magpie. L'idée clé de ce projet est d'exploiter les propriétés autorégressives des LLM alignés (tels que Llama-3-Instruct) pour générer des requêtes utilisateur en saisissant uniquement des modèles de pré-requête. Grâce à cette approche, Magpie est capable de générer des millions d’instructions et leurs réponses correspondantes, et de sélectionner des instances de haute qualité parmi elles pour former un ensemble de données.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.