摘要
在信息海量涌入互联网的当今时代,人工提取和消费相关信息不仅困难重重,而且耗时耗力。因此,亟需一种自动化文档摘要工具,以从主题相似或相关的多篇文档中提取关键信息。多文档摘要技术能够在最大限度减少冗余的前提下,从多篇文档中提炼出重要且相关的内容。本研究提出了一种基于无监督提取式方法的多文档文本摘要系统。该模型融合了两种学习范式:T5预训练Transformer模型与K-Means聚类算法。实验在标准新闻文章语料库——文档理解会议(Document Understanding Conference, DUC2004)上进行。采用ROUGE评估指标对所提方法在DUC2004数据集上的性能进行衡量。实验结果表明,与现有的无监督前沿方法相比,本模型在性能上显著提升,验证了其有效性与优越性。