
摘要
文本分段对于揭示文档的结构具有重要意义。若未将长篇文档划分为主题连贯的段落,读者将难以理解文本内容,更遑论从中提取关键信息。这一问题在音频/视频记录的转录文本中尤为突出,因其往往缺乏有效的分段处理。本文探讨了段落分段在书面与口语文档的抽取式摘要任务中的作用。我们提出的方法通过同时执行摘要生成与段落划分,学习到更加稳健的句子表示,并进一步引入基于优化的正则化项,以促进所选摘要句子的多样性。我们在涵盖科学论文到口语转录文本等多种数据集上进行了实验,评估模型性能。实验结果表明,该模型不仅在公开基准测试中达到了当前最优水平,而且在配备文本分段能力后,展现出更强的跨文体迁移能力。我们还开展了一系列分析,量化了段落分段对长篇、复杂书面与口语文档摘要效果的影响。