12 天前
SitEmb-v1.5:面向语义关联与长故事理解的改进型上下文感知密集检索
Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu

摘要
在长文档上进行检索增强生成(Retrieval-Augmented Generation, RAG)通常涉及将文本切分为较小的片段,这些片段作为检索的基本单元。然而,由于原始文档内部存在依赖关系,上下文信息对于准确理解每个片段至关重要。为应对这一挑战,先前的研究尝试通过扩展上下文窗口的编码长度,以生成更长片段的嵌入表示。尽管已有诸多努力,但在检索性能及下游任务中的提升仍十分有限。其原因在于:(1)较长的片段会因需要编码的信息量增加,超出嵌入模型的容量极限;(2)在许多现实应用场景中,仍需返回局部化的证据,这是受限于模型或人工处理能力所致。为此,我们提出一种新方法:通过将短片段的表示方式与更广泛的上下文窗口进行条件关联,以增强检索性能——即在更广阔的语境中定位片段的语义含义。我们进一步发现,现有嵌入模型在有效编码此类“情境化”上下文方面能力不足,因此提出一种全新的训练范式,并开发出情境嵌入模型(Situated Embedding Models, 简称 SitEmb)。为评估该方法,我们构建了一个专为评估情境化检索能力而设计的书籍情节检索数据集。在该基准测试中,基于 BGE-M3 构建的 SitEmb-v1 模型,尽管仅拥有 10 亿参数,其表现显著优于多个参数量高达 70 亿至 80 亿的当前最优嵌入模型。而我们的 80 亿参数版本 SitEmb-v1.5 模型进一步将性能提升了超过 10%,并在多种语言及多个下游应用中均展现出优异表现。