6 个月前

摘要

自动文本摘要已在多种领域和语言中得到广泛研究，但俄语领域却鲜有相关工作。为解决这一问题，本文提出了 Gazeta，这是首个面向俄语新闻摘要的专用数据集。我们详细描述了该数据集的特性，并对多种抽取式与生成式摘要模型进行了基准测试。实验结果表明，该数据集能够有效支持俄语文本摘要任务。此外，我们进一步验证了预训练的 mBART 模型在俄语摘要任务中的有效性，证明其在该领域具有良好的应用潜力。

源 PDF