HyperAIHyperAI

Command Palette

Search for a command to run...

迈向统一的文本分割与长文档摘要

Sangwoo Cho Kaiqiang Song Xiaoyang Wang Fei Liu Dong Yu

摘要

文本分段对于揭示文档的结构具有重要意义。若未将长篇文档划分为主题连贯的段落,读者将难以理解文本内容,更遑论从中提取关键信息。这一问题在音频/视频记录的转录文本中尤为突出,因其往往缺乏有效的分段处理。本文探讨了段落分段在书面与口语文档的抽取式摘要任务中的作用。我们提出的方法通过同时执行摘要生成与段落划分,学习到更加稳健的句子表示,并进一步引入基于优化的正则化项,以促进所选摘要句子的多样性。我们在涵盖科学论文到口语转录文本等多种数据集上进行了实验,评估模型性能。实验结果表明,该模型不仅在公开基准测试中达到了当前最优水平,而且在配备文本分段能力后,展现出更强的跨文体迁移能力。我们还开展了一系列分析,量化了段落分段对长篇、复杂书面与口语文档摘要效果的影响。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供