自动摘要 Automatic summarization

自动摘要是使用软件缩短文本文档的过程,以便创建包含原始文档要点的摘要,目前是机器学习和数据挖掘领域的一部分,其目的是找到包含相关「信息」的数据子集。

自动摘要目前有提取和抽象两种方法,其中提取是根据原始文本中的单词、短语或句子的子集形成摘要;抽象则是建立内部语义表示,后使用自然语言生成技术创造接近人类表达的摘要。

根据摘要程序关注的内容,大致有两种类型的提取摘要任务,第一个是通用摘要,其着重于获取馆藏的通用摘要或文章等摘要;第二个是查询相关的摘要,其汇总特定于查询的对象。

评估自动摘要的常见方法是与人为摘要进行对比,其主要分为内部评估和外部评估、文本间和文本内两种。

内部和外部评估

内部评估用于测试摘要系统本身,主要评估摘要的连贯性和信息性;外部评估基于摘要对其他任务完成情况的影响进行测试,包含摘要对相关性评估、阅读理解等任务的影响。

文本间和文本内

文本内方法评估特定摘要系统的输出;文本间方法侧重于对几个摘要系统的输出进行对比分析。