17 天前

如何训练你的DRAGON：面向可泛化的密集检索的多样化增强

Sheng-Chieh Lin, Akari Asai, Minghan Li, Barlas Oguz, Jimmy Lin, Yashar Mehdad, Wen-tau Yih, Xilun Chen

摘要

近年来，为提升密集检索（Dense Retrieval, DR）性能，研究者提出了多种技术，例如无监督对比学习和伪查询生成。然而，现有的密集检索模型在监督式检索与零样本检索之间往往面临性能权衡，部分研究认为这一问题源于模型容量有限。本文对此假设提出异议，并证明：仅通过优化训练方法，即可在不增加模型规模的前提下，训练出具备强泛化能力的密集检索器，使其在监督式与零样本检索任务中均实现高精度表现。具体而言，我们在数据增强（Data Augmentation, DA）的框架下，系统性地研究了密集检索中的对比学习机制。研究发现，当前常见的数据增强策略——如利用生成模型对查询进行增强，以及通过交叉编码器（cross-encoder）生成伪相关性标签——往往效率低下且非最优。为此，我们提出一种新型数据增强方法，通过引入多样化的查询形式与多源监督信号，实现对泛化能力更强的密集检索器的渐进式训练。基于此方法，我们构建了名为 DRAGON 的密集检索器。该模型在 BERT-base 规模下，首次在监督式与零样本检索任务中均达到当前最优性能，甚至在部分场景下可与采用更复杂后期交互机制的模型（如 ColBERTv2 和 SPLADE++）相媲美，展现出卓越的综合检索能力。