Ensemble De Données Simplifiées En Texte Chinois MCTS
Date
Taille
URL de publication
Catégories
MCTS signifie Multi-Reference Chinese Text Simplification Dataset, qui est un ensemble de données de simplification de texte chinois publié en 2024 par une équipe de recherche de l'Université des langues et de la culture de Pékin, de l'Université du Nord-Est et de l'Université Tsinghua.MCTS : un ensemble de données de simplification de textes chinois multi-références", vise à fournir des ressources riches et un support pour les tâches de simplification de texte dans le domaine du traitement du langage naturel.
L'ensemble de données contient 723 phrases structurées complexes sélectionnées à partir d'un corpus d'actualités basé sur la norme Penn Chinese Treebank (CTB), et chaque phrase est équipée de plusieurs versions simplifiées manuellement, ce qui en fait l'ensemble de données d'évaluation le plus grand et le plus référencé pour la tâche de simplification de texte chinois. De plus, MCTS définit trois types de méthodes de réécriture de phrases : la paraphrase, la compression de phrases et la transformation de structure. Cette diversité recouvre différentes stratégies de simplification de texte.
L'ensemble de données MCTS convient non seulement aux domaines de recherche tels que la lecture graduée et la traduction automatique, mais peut également aider les apprenants en langues à mieux comprendre et traiter des textes complexes.
En termes d'utilisation, MCTS fournit des données parallèles pour la formation, qui peuvent être utilisées pour former et optimiser le modèle de simplification de texte chinois. Dans le même temps, les chercheurs peuvent également quantifier les performances du système en comparant le texte simplifié généré par le système avec plusieurs versions simplifiées de référence dans l'ensemble de données, en utilisant des indicateurs d'évaluation automatique tels que SARI, BLEU et HSK Level.