Command Palette
Search for a command to run...
Magpie-Pro-300K-gefilterter Hochwertiger Ausrichtungsdatensatz
Datum
Größe
Paper-URL

Der Magpie-Pro-300K-Filtered-Datensatz ist ein hochwertiger Anweisungsdatensatz, der mit der Magpie-Methode synthetisiert und aus Llama-3 70B extrahiert wurde. Dieser Datensatz enthält etwa 300.000 hochwertige Konversationen, die durch einen automatisierten Selbstsyntheseprozess generiert wurden, der die autoregressiven Eigenschaften ausgerichteter LLMs ausnutzt, um Benutzerabfragen und entsprechende Antworten zu generieren.
Dieser Datensatz wird von Llama 3 70B Instruct bereitgestellt verwenden Elster erzeugen. Siehe auchPapierUndCodebasisfür Details.
Dies sind die gefilterten Daten. Bitte verwenden Sie nicht sowohl Magpie-Pro-300K-Filtered als auch Magpie-Pro-MT-300K, um das Modell zu optimieren, da sie in der ersten Runde ungefähr gleich sind.
Datensatzhintergrund
Das Magpie-Align-Projekt ist eine Selbstsynthesemethode namens Magpie zur Synthese hochwertiger Anweisungsdaten direkt aus großen Sprachmodellen (LLMs) selbst. Die Kernidee dieses Projekts besteht darin, die autoregressiven Eigenschaften ausgerichteter LLMs (wie Llama-3-Instruct) zu nutzen, um Benutzerabfragen nur durch Eingabe von Vorlagen vor der Abfrage zu generieren. Mit diesem Ansatz ist Magpie in der Lage, Millionen von Anweisungen und die entsprechenden Antworten zu generieren und daraus qualitativ hochwertige Instanzen auszuwählen, um einen Datensatz zu bilden.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.