HyperAIHyperAI

Command Palette

Search for a command to run...

MCTS-Datensatz Für Vereinfachten Chinesischen Text

Datum

vor 10 Monaten

Größe

71.7 MB

Organisation

Universität für Sprache und Kultur Peking
Tsinghua-Universität

Veröffentlichungs-URL

github.com

MCTS steht für Multi-Reference Chinese Text Simplification Dataset, einen chinesischen Textvereinfachungsdatensatz, der 2024 von einem Forschungsteam der Beijing Language and Culture University, der Northeastern University und der Tsinghua University veröffentlicht wurde.MCTS: Ein Multireferenz-Datensatz zur Vereinfachung chinesischer Texte" zielt darauf ab, umfangreiche Ressourcen und Unterstützung für Textvereinfachungsaufgaben im Bereich der Verarbeitung natürlicher Sprache bereitzustellen.

Der Datensatz enthält 723 komplex strukturierte Sätze, die aus einem Nachrichtenkorpus ausgewählt wurden, das auf dem Penn Chinese Treebank (CTB)-Standard basiert, und jeder Satz ist mit mehreren manuell vereinfachten Versionen ausgestattet, was ihn zum größten und am häufigsten zitierten Bewertungsdatensatz für die Aufgabe der chinesischen Textvereinfachung macht. Darüber hinaus definiert MCTS drei Arten von Methoden zur Satzumschreibung: Paraphrase, Satzkomprimierung und Strukturtransformation. Diese Vielfalt umfasst verschiedene Strategien zur Textvereinfachung.

Der MCTS-Datensatz eignet sich nicht nur für Forschungsfelder wie abgestuftes Lesen und maschinelle Übersetzung, sondern kann auch Sprachlernenden helfen, komplexe Texte besser zu verstehen und zu verarbeiten.

In Bezug auf die Nutzung stellt MCTS parallele Daten für das Training bereit, die zum Trainieren und Optimieren des chinesischen Textvereinfachungsmodells verwendet werden können. Gleichzeitig können Forscher die Leistung des Systems quantifizieren, indem sie den vom System generierten vereinfachten Text mit mehreren vereinfachten Referenzversionen im Datensatz vergleichen und dabei automatische Bewertungsindikatoren wie SARI, BLEU und HSK-Niveau verwenden.

MCTS-CN.torrent
Seeding 0Herunterladen 1Abgeschlossen 134Gesamtdownloads 232
  • MCTS-CN/
    • README.md
      2.01 KB
    • README.txt
      4.01 KB
      • data/
        • mcts-main.zip
          71.7 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MCTS-Datensatz Für Vereinfachten Chinesischen Text | Datensätze | HyperAI