QwQ-LongCoT-130K Feinabstimmungsdatensatz
Datum
Größe
Kategorien
Der QwQ-LongCoT-130K-Datensatz ist ein SFT-Datensatz (Supervised Fine-Tuning), der für das Training großer Sprachmodelle (LLMs) wie O1 entwickelt wurde. Charakteristisch für den Datensatz ist sein Fokus auf lange Gedankenketten. Das bedeutet, dass nicht nur die Generierung langer Textantworten im Vordergrund steht, sondern auch der Fokus darauf liegt, dass die generierten Antworten tiefgründige Denkprozesse und logisches Denken aufweisen können. Dieser Datensatz enthält ungefähr 130.000 Instanzen, von denen jede eine mit dem Modell QwQ-32B-Preview generierte Antwort ist.
Der QwQ-LongCoT-130K-Datensatz besteht aus ungefähr 90.000 Samples von NuminaMath und ungefähr 43.000 von Magpie generierten Samples. Die Ersteller des Datensatzes planen, weitere Magpie-Daten hinzuzufügen, sobald mehr Rechenressourcen gefunden werden. Darüber hinaus enthält der QwQ-LongCoT-130K-Datensatz im Hinblick auf die Längenverteilung längere Instanzen als die Teilmenge top_300k_longer_conversations von Magpie-Ultra.
Eine der Herausforderungen beim Erstellen des QwQ-LongCoT-130K-Datensatzes besteht darin, Seed-Anweisungen zu kuratieren, die wirklich für das Denken in langen Ketten geeignet sind. Die Ersteller des Datensatzes wollten nicht, dass die generierten Antworten einfache Fragen wie „Welche Farbe hat der Himmel?“ sind. und wollte außerdem, dass die Antworten frei von Urheberrechtsproblemen sind. Daher werden die Seed-Anweisungen des Datensatzes mit zwei Methoden gesammelt: Ein Teil der Daten stammt aus dem NuminaMath-CoT-Datensatz, der 860.000 mathematische Probleme und ihre Antworten enthält, und der andere Teil wird mit der Magpie-Methode aus dem QwQ-32B-Preview-Modell extrahiert.