MCTS-Datensatz Für Vereinfachten Chinesischen Text
Datum
Größe
Veröffentlichungs-URL
Kategorien
MCTS steht für Multi-Reference Chinese Text Simplification Dataset, einen chinesischen Textvereinfachungsdatensatz, der 2024 von einem Forschungsteam der Beijing Language and Culture University, der Northeastern University und der Tsinghua University veröffentlicht wurde.MCTS: Ein Multireferenz-Datensatz zur Vereinfachung chinesischer Texte" zielt darauf ab, umfangreiche Ressourcen und Unterstützung für Textvereinfachungsaufgaben im Bereich der Verarbeitung natürlicher Sprache bereitzustellen.
Der Datensatz enthält 723 komplex strukturierte Sätze, die aus einem Nachrichtenkorpus ausgewählt wurden, das auf dem Penn Chinese Treebank (CTB)-Standard basiert, und jeder Satz ist mit mehreren manuell vereinfachten Versionen ausgestattet, was ihn zum größten und am häufigsten zitierten Bewertungsdatensatz für die Aufgabe der chinesischen Textvereinfachung macht. Darüber hinaus definiert MCTS drei Arten von Methoden zur Satzumschreibung: Paraphrase, Satzkomprimierung und Strukturtransformation. Diese Vielfalt umfasst verschiedene Strategien zur Textvereinfachung.
Der MCTS-Datensatz eignet sich nicht nur für Forschungsfelder wie abgestuftes Lesen und maschinelle Übersetzung, sondern kann auch Sprachlernenden helfen, komplexe Texte besser zu verstehen und zu verarbeiten.
In Bezug auf die Nutzung stellt MCTS parallele Daten für das Training bereit, die zum Trainieren und Optimieren des chinesischen Textvereinfachungsmodells verwendet werden können. Gleichzeitig können Forscher die Leistung des Systems quantifizieren, indem sie den vom System generierten vereinfachten Text mit mehreren vereinfachten Referenzversionen im Datensatz vergleichen und dabei automatische Bewertungsindikatoren wie SARI, BLEU und HSK-Niveau verwenden.