2 个月前

使科学简单化:面向非专业读者的科学文献语料库

Tomas Goldsack; Zhihao Zhang; Chenghua Lin; Carolina Scarton
使科学简单化:面向非专业读者的科学文献语料库
摘要

面向大众的摘要生成旨在同时对给定文本进行总结和简化,从而使其内容更容易被非专业人士理解。自动化的面向大众的摘要生成方法可以为扩大科学文献的访问范围提供重要价值,有助于在研究发现方面实现更高程度的跨学科知识共享和公众理解。然而,当前用于此任务的数据集在规模和范围上存在局限性,阻碍了广泛适用的数据驱动方法的发展。为了纠正这些问题,我们介绍了两个新的面向大众的摘要生成数据集:PLOS(大规模)和eLife(中等规模),每个数据集都包含生物医学期刊文章及其由专家撰写的面向大众的摘要。我们对这些面向大众的摘要进行了详细的特征描述,强调了不同数据集之间可读性和抽象性的差异,这些差异可以用来支持不同应用的需求。最后,我们使用主流的摘要生成方法对这两个数据集进行了基准测试,并通过领域专家的手动评估展示了它们的价值,揭示了该任务的关键挑战。