11 天前

用于自动摘要俄罗斯新闻的数据集

Ilya Gusev
用于自动摘要俄罗斯新闻的数据集
摘要

自动文本摘要已在多种领域和语言中得到广泛研究,但俄语领域却鲜有相关工作。为解决这一问题,本文提出了 Gazeta,这是首个面向俄语新闻摘要的专用数据集。我们详细描述了该数据集的特性,并对多种抽取式与生成式摘要模型进行了基准测试。实验结果表明,该数据集能够有效支持俄语文本摘要任务。此外,我们进一步验证了预训练的 mBART 模型在俄语摘要任务中的有效性,证明其在该领域具有良好的应用潜力。

用于自动摘要俄罗斯新闻的数据集 | 最新论文 | HyperAI超神经