
摘要
摘要型片段(abstractive snippet)是一种为搜索引擎结果页面上的网页自动生成的摘要文本,旨在概括网页内容。与传统的抽取型片段(extractive snippets)——即直接从网页中提取原文短语或句子——不同,摘要型片段通过重新表述内容来规避版权问题;更值得关注的是,它为个性化摘要的实现开辟了可能。已有研究表明,摘要型片段在用户接受度和表达能力方面与抽取型片段相当,但关键问题依然存在:能否以足够高的质量自动生成摘要型片段?本文提出了一种全新的摘要型片段生成方法:首次识别出两种大规模的远程监督(distant supervision)数据源——锚文本上下文(anchor contexts)和网页目录(web directories)。通过在完整版 ClueWeb09 和 ClueWeb12 数据集中挖掘锚文本上下文,并利用 DMOZ 开放目录项目(DMOZ Open Directory Project)的数据,我们构建了 Webis 摘要型片段语料库 2020(Webis Abstractive Snippet Corpus 2020),该语料库包含超过 350 万个三元组 $\langle$query, snippet, document$\rangle$ 作为训练样本。其中,片段(snippet)由锚文本上下文或网页目录描述替代,而非真实存在的、针对特定查询的抽象型摘要。我们进一步提出了一种双向摘要型片段生成模型,并采用标准评估指标、众包评测以及与当前最先进方法的对比,全面评估了语料库质量及生成片段的性能。实验结果表明,结合所提出的新型数据源与模型,能够有效生成具备查询相关性的可用摘要型片段,同时显著减少文本重复使用问题。