Ensemble De Données De Réglage Fin QwQ-LongCoT-130K
Date
Taille
L'ensemble de données QwQ-LongCoT-130K est un ensemble de données SFT (Supervised Fine-Tuning) conçu pour la formation de grands modèles de langage (LLM) comme O1. L'ensemble de données se caractérise par son accent sur le raisonnement à longue chaîne de pensée, ce qui signifie qu'il ne se contente pas de générer de longues réponses textuelles, mais se concentre également sur les réponses générées capables de montrer des processus de réflexion approfondis et un raisonnement logique. Cet ensemble de données contient environ 130 000 instances, chacune étant une réponse générée à l'aide du modèle QwQ-32B-Preview.
L'ensemble de données QwQ-LongCoT-130K comprend environ 90 000 échantillons de NuminaMath et environ 43 000 échantillons générés par Magpie. Les créateurs de l'ensemble de données prévoient d'ajouter davantage de données Magpie à mesure que davantage de ressources informatiques seront trouvées. De plus, l'ensemble de données QwQ-LongCoT-130K contient des instances plus longues en termes de distribution de longueur par rapport au sous-ensemble top_300k_longer_conversations de Magpie-Ultra.
L’un des défis de la construction de l’ensemble de données QwQ-LongCoT-130K est de savoir comment organiser les instructions de départ qui sont vraiment dignes d’un raisonnement à longue chaîne. Les créateurs de l'ensemble de données ne voulaient pas que les réponses générées soient de simples questions telles que « De quelle couleur est le ciel ? » et je voulais également que les réponses soient exemptes de problèmes de droits d'auteur. Par conséquent, les instructions de départ de l'ensemble de données sont collectées par deux méthodes : une partie des données provient de l'ensemble de données NuminaMath-CoT, qui contient 860 000 problèmes mathématiques et leurs réponses, et l'autre partie est extraite du modèle QwQ-32B-Preview via la méthode Magpie.