HyperAIHyperAI

Command Palette

Search for a command to run...

M2Lingual Mehrsprachiger, Mehrrunder Unterricht, Feinabstimmung Des Datensatzes

Datum

vor einem Jahr

Größe

649.13 MB

Organisation

ServiceNow-Forschung
Universität von Illinois in Chicago

Paper-URL

arxiv.org

M2Lingual ist ein mehrsprachiger, mehrrunder Datensatz zur Feinabstimmung von Anweisungen (IFT), der darauf abzielt, die Leistung großer Sprachmodelle (LLMs) beim Befolgen von Anweisungen zu verbessern, insbesondere bei unterschiedlichen Sprachen und Aufgaben. Der Datensatz wurde 2024 von einem Forschungsteam von ServiceNow und der University of Illinois in Chicago erstellt.

Zu den Hauptmerkmalen des M2Lingual-Datensatzes gehören:

  1. Mehrsprachige Abdeckung: M2Lingual deckt 70 verschiedene Sprachen ab und bietet mehr Trainingsdaten für ressourcenarme Sprachen.
  2. Mehrstufiger Dialog: Der Datensatz enthält mehrere Runden mit Anweisungen und Antworten, was die Fähigkeit des Modells verbessert, komplexe Dialogszenarien zu verarbeiten.
  3. Aufgabenorientiert: M2Lingual umfasst 17 Aufgaben zur Verarbeitung natürlicher Sprache (NLP), wie z. B. Zusammenfassung, Beantwortung von Fragen und allgemeine Befehl-Antwort-Paare.
  4. Großformat: Der Datensatz enthält insgesamt 182.000 Feinabstimmungspaare für Anweisungen und bietet umfangreiche Trainingsbeispiele.
  5. Synthetischer Datensatz:M2Lingual ist ein vollständig synthetischer Datensatz, der mithilfe einer bestimmten evolutionären Taxonomie generiert wird, wodurch die Vielfalt und Komplexität der Daten gewährleistet wird.
  6. Leistungsverbesserungen: Mit M2Lingual feinabgestimmtes LLM zeigt bei mehreren Bewertungsbenchmarks eine bessere Leistung als vorhandene mehrsprachige IFT-Datensätze.

Die Einführung von M2Lingual bietet eine neue Lösung für das Problem der mehrsprachigen und mehrrunden Befehlsausrichtung, die dazu beiträgt, die Praktikabilität und Genauigkeit großer Sprachmodelle in mehrsprachigen Umgebungen zu verbessern.

M2Lingual.torrent
Seeding 1Herunterladen 0Abgeschlossen 198Gesamtdownloads 254
  • M2Lingual/
    • README.md
      2.11 KB
    • README.txt
      4.22 KB
      • data/
        • M2Lingual.zip
          649.13 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp