LawInstruct: Der Erste Groß Angelegte Datensatz Mit Rechtsanweisungen
Datum
vor einem Jahr
Größe
9.84 GB
Veröffentlichungs-URL
LawInstruct ist der erste groß angelegte Anweisungsdatensatz für den Rechtsbereich. Dieser Datensatz wurde gemeinsam von der Stanford University, der Johns Hopkins University und anderen Institutionen erstellt und im April 2024 veröffentlicht. LawInstruct wurde entwickelt, um Lücken in vorhandenen Datensätzen für juristische Aufgaben zu schließen und die Entwicklung von Modellen im Rechtsbereich zu beschleunigen.
- Datensatzmerkmale:
- Abdeckung: LawInstruct deckt 17 Rechtsräume und 24 Sprachen ab und gewährleistet so eine breite Anwendbarkeit und Vielfalt des Datensatzes.
- Umfang und Vielfalt: Enthält 12 Millionen Trainingsbeispiele, die eine Vielzahl juristischer Aufgaben abdecken, wie z. B. Beantwortung von Fragen, Implikation, Zusammenfassung und Informationsextraktion.
- Datensatzstruktur:
- Jedes Beispiel wird in einem angepassten Anweisungsformat präsentiert, um Datenkonsistenz und Bedienbarkeit sicherzustellen.
- Es integriert 58 hochwertig annotierte Datensätze aus unterschiedlichen juristischen Aufgaben- und Berufsfeldern.
- Technische Umsetzung:
- Wir haben MultiLegalPile verwendet, ein 689 GB großes mehrsprachiges Rechtskorpus, um umfangreiches Vortrainingsmaterial für das Modell bereitzustellen.
- Leistungsverbesserungen:
- Durch die Anpassung der Anweisungen in LawInstruct wird die ausgewogene Genauigkeit des Flan-T5 XL-Modells in LegalBench erheblich verbessert, was den positiven Einfluss des Datensatzes auf die Modellleistung bestätigt.
- Forschung und Veröffentlichungen:
- Die entsprechenden Forschungsergebnisse wurden in der Publikation veröffentlicht.FLawN-T5: Eine empirische Untersuchung effektiver Datenmischungen zur Unterrichtsoptimierung für juristische Argumentation“, das den Konstruktionsprozess und die experimentellen Ergebnisse des LawInstruct-Datensatzes detailliert aufzeichnet.
LawInstruct.torrent
Seeding 1Herunterladen 1Abgeschlossen 89Gesamtdownloads 199