17 天前

RocketQA:一种面向开放域问答的密集段落检索优化训练方法

Yingqi Qu, Yuchen Ding, Jing Liu, Kai Liu, Ruiyang Ren, Wayne Xin Zhao, Daxiang Dong, Hua Wu, Haifeng Wang
RocketQA:一种面向开放域问答的密集段落检索优化训练方法
摘要

在开放域问答任务中,密集段落检索(dense passage retrieval)已成为一种新兴范式,用于检索与问题相关的段落以定位答案。通常,双编码器(dual-encoder)架构被采用,以学习问题与段落的密集向量表示,实现语义匹配。然而,由于训练与推理阶段之间的差异、未标注正样本的存在以及训练数据有限等挑战,双编码器模型的训练极具难度。为应对这些挑战,本文提出一种优化的训练方法——RocketQA,以提升密集段落检索的性能。RocketQA在技术上做出三项主要贡献:跨批量负样本(cross-batch negatives)、去噪硬负样本(denoised hard negatives)以及数据增强(data augmentation)。实验结果表明,RocketQA在MSMARCO和Natural Questions两个基准数据集上均显著超越此前的最先进模型。我们还通过大量实验验证了上述三种策略在RocketQA中的有效性。此外,我们进一步证明,基于所提出的RocketQA检索器,端到端问答系统的性能也可得到显著提升。

RocketQA:一种面向开放域问答的密集段落检索优化训练方法 | 最新论文 | HyperAI超神经