HyperAI

Magpie-Pro-300K-gefilterter Hochwertiger Ausrichtungsdatensatz

Datum

vor 10 Monaten

Größe

469.91 MB

Organisation

Allen Institute for Artificial Intelligence
Universität von Washington

Veröffentlichungs-URL

huggingface.co

特色图像

Der Magpie-Pro-300K-Filtered-Datensatz ist ein hochwertiger Anweisungsdatensatz, der mit der Magpie-Methode synthetisiert und aus Llama-3 70B extrahiert wurde. Dieser Datensatz enthält etwa 300.000 hochwertige Konversationen, die durch einen automatisierten Selbstsyntheseprozess generiert wurden, der die autoregressiven Eigenschaften ausgerichteter LLMs ausnutzt, um Benutzerabfragen und entsprechende Antworten zu generieren.

Dieser Datensatz wird von Llama 3 70B Instruct bereitgestellt verwenden Elster erzeugen. Siehe auchPapierUndCodebasisfür Details.

Dies sind die gefilterten Daten. Bitte verwenden Sie nicht sowohl Magpie-Pro-300K-Filtered als auch Magpie-Pro-MT-300K, um das Modell zu optimieren, da sie in der ersten Runde ungefähr gleich sind.

Datensatzhintergrund

Das Magpie-Align-Projekt ist eine Selbstsynthesemethode namens Magpie zur Synthese hochwertiger Anweisungsdaten direkt aus großen Sprachmodellen (LLMs) selbst. Die Kernidee dieses Projekts besteht darin, die autoregressiven Eigenschaften ausgerichteter LLMs (wie Llama-3-Instruct) zu nutzen, um Benutzerabfragen nur durch Eingabe von Vorlagen vor der Abfrage zu generieren. Mit diesem Ansatz ist Magpie in der Lage, Millionen von Anweisungen und die entsprechenden Antworten zu generieren und daraus qualitativ hochwertige Instanzen auszuwählen, um einen Datensatz zu bilden.

Magpie-Pro-300K-Filtered.torrent
Seeding 2Herunterladen 1Abgeschlossen 58Gesamtdownloads 70
  • Magpie-Pro-300K-Filtered/
    • README.md
      1.91 KB
    • README.txt
      3.83 KB
      • data/
        • Magpie-Pro-300K-Filtered.zip
          469.91 MB