17 天前
RAPTOR:用于树状结构检索的递归抽象处理
Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning

摘要
检索增强型语言模型能够更好地适应世界状态的变化,并融入长尾知识。然而,现有大多数方法仅从检索语料库中提取短小的连续文本片段,限制了对文档整体上下文的全面理解。为此,我们提出一种新颖的方法:递归地对文本片段进行嵌入、聚类与摘要,自下而上构建一个具有多层级摘要结构的树形架构。在推理阶段,我们的RAPTOR模型可从该树中检索信息,从而在不同抽象层次上整合长文档中的多方面知识。受控实验表明,采用递归摘要进行检索相较于传统检索增强型语言模型,在多个任务上均取得了显著提升。在涉及复杂多步推理的问答任务中,我们的方法达到了当前最优水平;例如,将RAPTOR检索机制与GPT-4结合使用,可使QuALITY基准测试的最高准确率提升20个百分点(绝对提升)。