HyperAI

Maßgeschneiderter Stratos 17k-Datensatz Für Logische Aufgaben

Datum

vor 2 Monaten

Größe

107.46 MB

Organisation

Veröffentlichungs-URL

huggingface.co

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Bespoke-Stratos-17k ist ein hochwertiger Datensatz für logische Denkaufgaben, der 2025 vom Bespoke Labs-Team entwickelt wurde. Der entsprechende Blogbeitrag lautet:Bespoke-Stratos: Die unsinnige Wirksamkeit der Argumentationsdestillation". Dieser Datensatz wird durch die Verbesserung der Sky-T1-Datenpipeline von Berkeley und unter Verwendung der destillierten Daten von DeepSeek-R1 generiert und soll das Training leistungsstarker Inferenzmodelle unterstützen. Der Datensatz enthält Fragen, Argumentationsspuren und Antworten aus verschiedenen Bereichen wie Code, Mathematik und wissenschaftlichen Rätseln. Mit dem Tool „Bespoke Curator“ kann in nur 1,5 Stunden zu einem Preis von etwa 800 US-Dollar ein hochwertiger Inferenzdatensatz generiert werden. Dieser Datensatz verwendet DeepSeek-R1 als Inferenzmodell für den Lehrer, was den Datengenerierungsprozess ohne zusätzliche Formatierungsschritte vereinfacht. Darüber hinaus verbesserte das Herausfiltern falscher mathematischer Lösungen durch gpt-4o-mini die Beibehaltungsrate korrekter mathematischer Lösungen deutlich von 25% auf 73%.

Der Datensatz besteht aus drei Teilen: Programmierdaten (5.000 Daten von APPs und TACO), Mathematikdaten (10.000 Daten aus den Teilmengen AIME, MATH und Olympiaden des NuminaMATH-Datensatzes) sowie Wissenschafts- und Rätseldaten (1.000 Daten von STILL-2). Diese Daten wurden zum Trainieren zweier Inferenzmodelle verwendet, Bespoke-Stratos-32B und Bespoke-Stratos-7B, die bei den Mathematik- und Code-Reasoning-Benchmarks gute Ergebnisse erzielten und frühere Modelle übertrafen.

Bespoke-Stratos-17k.torrent
Seeding 2Herunterladen 1Abgeschlossen 42Gesamtdownloads 40
  • Bespoke-Stratos-17k/
    • README.md
      2.05 KB
    • README.txt
      4.09 KB
      • data/
        • Bespoke-Stratos-17k.zip
          107.46 MB