HyperAIHyperAI

PromptCoT-2.0-SFT-4.8M Überwachter Feinabstimmungs-Prompt-SFT-Datensatz

Datum

vor 6 Tagen

Organisation

Die Universität von Hongkong
Ameisengruppe

Veröffentlichungs-URL

huggingface.co

Paper-URL

2509.19894

Lizenz

MIT

Download-Hilfe

PromptCoT-2.0-SFT-4.8M ist ein groß angelegter synthetischer Prompt-Datensatz, der vom Forschungsteam der Universität Hongkong und der Ant Group im Jahr 2025 veröffentlicht wurde. Die zugehörigen Papierergebnisse sind „PromptCoT 2.0: Skalierung der Promptsynthese für das Denken in großen Sprachmodellen“, dessen Ziel es ist, ein hochwertiges Korpus für Schlussfolgerungsaufforderungen für große Sprachmodelle zur Feinabstimmung oder zum Selbsttraining bereitzustellen.

Der Datensatz enthält ungefähr 4,8 Millionen vollständig synthetische Eingabeaufforderungen mit Denkverläufen sowohl in Szenarien mit überwachter Feinabstimmung als auch in Szenarien zum Selbstüben und deckt zwei wichtige Denkbereiche ab: Mathematik und Programmierung.

Datenzusammensetzung:

  • Im Szenario der überwachten Feinabstimmung (SFT) wurden insgesamt 4.766.890 Eingabeaufforderungen synthetisiert, darunter:
    • 1.188.505 Programmieraufgabenaufforderungen
    • 3.578.385 Mathe-Aufgaben