6 个月前

自然语言处理

Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Wayne Xin Zhao Daxiang Dong Hua Wu Haifeng Wang

摘要

在开放域问答任务中，密集段落检索（dense passage retrieval）已成为一种新兴范式，用于检索与问题相关的段落以定位答案。通常，双编码器（dual-encoder）架构被采用，以学习问题与段落的密集向量表示，实现语义匹配。然而，由于训练与推理阶段之间的差异、未标注正样本的存在以及训练数据有限等挑战，双编码器模型的训练极具难度。为应对这些挑战，本文提出一种优化的训练方法——RocketQA，以提升密集段落检索的性能。RocketQA在技术上做出三项主要贡献：跨批量负样本（cross-batch negatives）、去噪硬负样本（denoised hard negatives）以及数据增强（data augmentation）。实验结果表明，RocketQA在MSMARCO和Natural Questions两个基准数据集上均显著超越此前的最先进模型。我们还通过大量实验验证了上述三种策略在RocketQA中的有效性。此外，我们进一步证明，基于所提出的RocketQA检索器，端到端问答系统的性能也可得到显著提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Wayne Xin Zhao Daxiang Dong Hua Wu Haifeng Wang

摘要

在开放域问答任务中，密集段落检索（dense passage retrieval）已成为一种新兴范式，用于检索与问题相关的段落以定位答案。通常，双编码器（dual-encoder）架构被采用，以学习问题与段落的密集向量表示，实现语义匹配。然而，由于训练与推理阶段之间的差异、未标注正样本的存在以及训练数据有限等挑战，双编码器模型的训练极具难度。为应对这些挑战，本文提出一种优化的训练方法——RocketQA，以提升密集段落检索的性能。RocketQA在技术上做出三项主要贡献：跨批量负样本（cross-batch negatives）、去噪硬负样本（denoised hard negatives）以及数据增强（data augmentation）。实验结果表明，RocketQA在MSMARCO和Natural Questions两个基准数据集上均显著超越此前的最先进模型。我们还通过大量实验验证了上述三种策略在RocketQA中的有效性。此外，我们进一步证明，基于所提出的RocketQA检索器，端到端问答系统的性能也可得到显著提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供