11 天前
开放域多文档摘要:检索条件下模型脆弱性的综合研究
John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan

摘要
多文档摘要(Multi-document Summarization, MDS)通常假设输入为一组与某一主题相关的文档。然而在实际应用中,这一文档集合往往并不存在,需根据特定的信息需求(如问题或主题陈述)进行检索获取,这种设置我们称之为“开放域”多文档摘要(open-domain MDS)。针对这一更具挑战性的场景,本文通过形式化任务定义,并利用现有的数据集、检索系统和摘要模型进行自举(bootstrapping)研究。通过广泛的自动评估与人工评估,我们得出以下结论:(1)当前最先进的摘要模型在应用于开放域MDS时性能显著下降;(2)在开放域场景下进行额外训练可有效降低模型对检索结果不完善的敏感性;(3)摘要模型对重复文档的检索以及检索结果顺序不敏感,但对其他类型的错误(如无关文档的误检)极为敏感。基于上述发现,本文提出了面向未来开放域MDS研究的实用指导建议,例如如何合理选择用于摘要的检索文档数量。我们的研究结果表明,要推动开放域MDS的进一步发展,亟需开发新型的检索与摘要方法,并构建相应的标注数据资源以支持模型的训练与评估。