M2Lingual Mehrsprachiger, Mehrrunder Unterricht, Feinabstimmung Des Datensatzes
Datum
vor 10 Monaten
Größe
649.13 MB
Veröffentlichungs-URL
Kategorien
M2Lingual ist ein mehrsprachiger, mehrrunder Datensatz zur Feinabstimmung von Anweisungen (IFT), der darauf abzielt, die Leistung großer Sprachmodelle (LLMs) beim Befolgen von Anweisungen zu verbessern, insbesondere bei unterschiedlichen Sprachen und Aufgaben. Der Datensatz wurde 2024 von einem Forschungsteam von ServiceNow und der University of Illinois in Chicago erstellt.
Zu den Hauptmerkmalen des M2Lingual-Datensatzes gehören:
- Mehrsprachige Abdeckung: M2Lingual deckt 70 verschiedene Sprachen ab und bietet mehr Trainingsdaten für ressourcenarme Sprachen.
- Mehrstufiger Dialog: Der Datensatz enthält mehrere Runden mit Anweisungen und Antworten, was die Fähigkeit des Modells verbessert, komplexe Dialogszenarien zu verarbeiten.
- Aufgabenorientiert: M2Lingual umfasst 17 Aufgaben zur Verarbeitung natürlicher Sprache (NLP), wie z. B. Zusammenfassung, Beantwortung von Fragen und allgemeine Befehl-Antwort-Paare.
- Großformat: Der Datensatz enthält insgesamt 182.000 Feinabstimmungspaare für Anweisungen und bietet umfangreiche Trainingsbeispiele.
- Synthetischer Datensatz:M2Lingual ist ein vollständig synthetischer Datensatz, der mithilfe einer bestimmten evolutionären Taxonomie generiert wird, wodurch die Vielfalt und Komplexität der Daten gewährleistet wird.
- Leistungsverbesserungen: Mit M2Lingual feinabgestimmtes LLM zeigt bei mehreren Bewertungsbenchmarks eine bessere Leistung als vorhandene mehrsprachige IFT-Datensätze.
Die Einführung von M2Lingual bietet eine neue Lösung für das Problem der mehrsprachigen und mehrrunden Befehlsausrichtung, die dazu beiträgt, die Praktikabilität und Genauigkeit großer Sprachmodelle in mehrsprachigen Umgebungen zu verbessern.
M2Lingual.torrent
Seeding 1Herunterladen 1Abgeschlossen 112Gesamtdownloads 135