HyperAIHyperAI

Command Palette

Search for a command to run...

M2Lingual Mehrsprachiger, Mehrrunder Unterricht, Feinabstimmung Des Datensatzes

Date

vor einem Jahr

Size

649.13 MB

Organization

ServiceNow-Forschung
Universität von Illinois in Chicago

Paper URL

arxiv.org

M2Lingual ist ein mehrsprachiger, mehrrunder Datensatz zur Feinabstimmung von Anweisungen (IFT), der darauf abzielt, die Leistung großer Sprachmodelle (LLMs) beim Befolgen von Anweisungen zu verbessern, insbesondere bei unterschiedlichen Sprachen und Aufgaben. Der Datensatz wurde 2024 von einem Forschungsteam von ServiceNow und der University of Illinois in Chicago erstellt.

Zu den Hauptmerkmalen des M2Lingual-Datensatzes gehören:

  1. Mehrsprachige Abdeckung: M2Lingual deckt 70 verschiedene Sprachen ab und bietet mehr Trainingsdaten für ressourcenarme Sprachen.
  2. Mehrstufiger Dialog: Der Datensatz enthält mehrere Runden mit Anweisungen und Antworten, was die Fähigkeit des Modells verbessert, komplexe Dialogszenarien zu verarbeiten.
  3. Aufgabenorientiert: M2Lingual umfasst 17 Aufgaben zur Verarbeitung natürlicher Sprache (NLP), wie z. B. Zusammenfassung, Beantwortung von Fragen und allgemeine Befehl-Antwort-Paare.
  4. Großformat: Der Datensatz enthält insgesamt 182.000 Feinabstimmungspaare für Anweisungen und bietet umfangreiche Trainingsbeispiele.
  5. Synthetischer Datensatz:M2Lingual ist ein vollständig synthetischer Datensatz, der mithilfe einer bestimmten evolutionären Taxonomie generiert wird, wodurch die Vielfalt und Komplexität der Daten gewährleistet wird.
  6. Leistungsverbesserungen: Mit M2Lingual feinabgestimmtes LLM zeigt bei mehreren Bewertungsbenchmarks eine bessere Leistung als vorhandene mehrsprachige IFT-Datensätze.

Die Einführung von M2Lingual bietet eine neue Lösung für das Problem der mehrsprachigen und mehrrunden Befehlsausrichtung, die dazu beiträgt, die Praktikabilität und Genauigkeit großer Sprachmodelle in mehrsprachigen Umgebungen zu verbessern.

M2Lingual.torrent
Seeding 1Downloading 0Completed 206Total Downloads 288
  • M2Lingual/
    • README.md
      2.11 KB
    • README.txt
      4.22 KB
      • data/
        • M2Lingual.zip
          649.13 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp