HyperAIHyperAI

Command Palette

Search for a command to run...

MCTS-Datensatz Für Vereinfachten Chinesischen Text

Date

vor einem Jahr

Size

71.7 MB

Organization

Universität für Sprache und Kultur Peking
Tsinghua-Universität

Publish URL

github.com

MCTS steht für Multi-Reference Chinese Text Simplification Dataset, einen chinesischen Textvereinfachungsdatensatz, der 2024 von einem Forschungsteam der Beijing Language and Culture University, der Northeastern University und der Tsinghua University veröffentlicht wurde.MCTS: Ein Multireferenz-Datensatz zur Vereinfachung chinesischer Texte" zielt darauf ab, umfangreiche Ressourcen und Unterstützung für Textvereinfachungsaufgaben im Bereich der Verarbeitung natürlicher Sprache bereitzustellen.

Der Datensatz enthält 723 komplex strukturierte Sätze, die aus einem Nachrichtenkorpus ausgewählt wurden, das auf dem Penn Chinese Treebank (CTB)-Standard basiert, und jeder Satz ist mit mehreren manuell vereinfachten Versionen ausgestattet, was ihn zum größten und am häufigsten zitierten Bewertungsdatensatz für die Aufgabe der chinesischen Textvereinfachung macht. Darüber hinaus definiert MCTS drei Arten von Methoden zur Satzumschreibung: Paraphrase, Satzkomprimierung und Strukturtransformation. Diese Vielfalt umfasst verschiedene Strategien zur Textvereinfachung.

Der MCTS-Datensatz eignet sich nicht nur für Forschungsfelder wie abgestuftes Lesen und maschinelle Übersetzung, sondern kann auch Sprachlernenden helfen, komplexe Texte besser zu verstehen und zu verarbeiten.

In Bezug auf die Nutzung stellt MCTS parallele Daten für das Training bereit, die zum Trainieren und Optimieren des chinesischen Textvereinfachungsmodells verwendet werden können. Gleichzeitig können Forscher die Leistung des Systems quantifizieren, indem sie den vom System generierten vereinfachten Text mit mehreren vereinfachten Referenzversionen im Datensatz vergleichen und dabei automatische Bewertungsindikatoren wie SARI, BLEU und HSK-Niveau verwenden.

MCTS-CN.torrent
Seeding 0Downloading 3Completed 138Total Downloads 279
  • MCTS-CN/
    • README.md
      2.01 KB
    • README.txt
      4.01 KB
      • data/
        • mcts-main.zip
          71.7 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp