2 个月前
Multi-News:大规模多文档摘要数据集及抽象层次模型
Alexander R. Fabbri; Irene Li; Tianwei She; Suyi Li; Dragomir R. Radev

摘要
从多篇新闻文章自动生成摘要是一种有价值的工具,随着在线出版物数量的迅速增长,这一工具的重要性日益凸显。单文档摘要(Single Document Summarization, SDS)系统已经受益于神经编码器-解码器模型的发展,这得益于大规模数据集的可用性。然而,新闻文章的多文档摘要(Multi-Document Summarization, MDS)一直局限于包含几百个示例的数据集。在本文中,我们介绍了 Multi-News,这是首个大规模的 MDS 新闻数据集。此外,我们提出了一种端到端模型,该模型结合了传统的抽取式摘要模型和标准的 SDS 模型,在 MDS 数据集上取得了具有竞争力的结果。我们在 Multi-News 上对多种方法进行了基准测试,并发布了我们的数据和代码,希望这项工作能够促进多文档摘要领域的进一步发展。