17 天前

开放域问答中的密集段落检索

Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih
开放域问答中的密集段落检索
摘要

开放域问答系统依赖于高效的段落检索来筛选候选上下文,传统上普遍采用稀疏向量空间模型(如TF-IDF或BM25)作为主要方法。在本工作中,我们证明仅使用密集表示(dense representations)即可实现高效的检索,其中嵌入向量通过一个简单的双编码器(dual-encoder)框架,基于少量问题与段落样本进行学习。在多种开放域问答数据集上的评估结果表明,我们的密集检索器在Top-20段落检索准确率方面,相较于强大的Lucene-BM25系统,绝对提升达9%至19%,显著优于传统方法,并推动了端到端问答系统在多个开放域问答基准测试中达到新的最先进水平。

开放域问答中的密集段落检索 | 最新论文 | HyperAI超神经