MCTS 全称为 Multi-Reference Chinese Text Simplification Dataset,是由北京语言大学、东北大学和清华大学的研究团队于 2024 年发布的中文文本简化数据集,相关论文成果为「MCTS: A Multi-Reference Chinese Text Simplification Dataset」,旨在为自然语言处理领域中的文本简化任务提供丰富的资源和支持。
该数据集包含 723 条基于 Penn Chinese Treebank(CTB)的标准、选自新闻语料的复杂结构句子,并且每一句都配有多个人工简化的版本,从而成为中文文本简化任务上规模最大、参考最多的评估数据集。此外,MCTS 还定义了三种类型的句子改写方法:改述、句子压缩和结构转换,这样的多样性覆盖了不同的文本简化策略。
MCTS 数据集不仅适用于分级阅读、机器翻译等研究领域,还能够帮助语言学习者更好地理解和处理复杂文本。
使用方法方面,MCTS 提供了训练用的平行数据,可以用于训练和优化中文文本简化模型。同时,研究者也可以通过对比系统生成的简化文本与数据集中的多参考简化版本,使用自动评估指标如 SARI 、 BLEU 和 HSK Level 等来量化系统的表现。
MCTS-CN.torrent
做种 0正在下载 1已完成 47总下载次数 87