DISC-Law-SFT Hochwertiger Feinabstimmungsdatensatz Zur Chinesischen Rechtsaufsicht
Datum
Größe
Veröffentlichungs-URL
Tags
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der DISC-Law-SFT-Datensatz ist ein hochwertiger, überwachter Feinabstimmungsdatensatz (SFT), der 2023 vom Data Intelligence and Social Computing Laboratory der Fudan University (Fudan-DISC) erstellt wurde. Er wird zum Trainieren und Verbessern der Anwendungsfähigkeiten großer Sprachmodelle (LLMs) im Rechtsbereich verwendet und enthält fast 300.000 Trainingsdaten. Dieser Datensatz wurde speziell für den chinesischen Rechtsbereich entwickelt und zielt darauf ab, die Fähigkeiten des Modells bei der Verarbeitung juristischer Texte, beim juristischen Denken sowie bei der Wissensabfrage und -einhaltung im Rechtsbereich zu verbessern. Das entsprechende Papier istDISC-LawLLM: Feinabstimmung großer Sprachmodelle für intelligente Rechtsdienstleistungen"
Der Datensatz enthält zwei Teilmengen: DISC-Law-SFT-Pair und DISC-Law-SFT-Triplet. Die Teilmenge DISC-Law-SFT-Pair führt juristische Argumentationsfähigkeiten durch die Methode der Anweisungspaarkonstruktion des juristischen Syllogismus ein, während die Teilmenge DISC-Law-SFT-Triplett die Fähigkeit des Modells verbessert, externes Wissen zu nutzen, indem sie Tripel konstruiert, die Eingabe-, Ausgabe- und Referenzinformationen enthalten.
Die Datenquellen des Datensatzes umfassen hauptsächlich drei Teile: öffentliche Datensätze zu NLP-Rechtsaufgaben im Zusammenhang mit chinesischem Recht, Originalrechtstexte aus der realen Welt und allgemeine Open-Source-Datensätze. Solche Datenquellen gewährleisten die Vielfalt und Reichhaltigkeit des Datensatzes.