17 天前
领域匹配的预训练任务用于密集检索
Barlas Oğuz, Kushal Lakhotia, Anchit Gupta, Patrick Lewis, Vladimir Karpukhin, Aleksandra Piktus, Xilun Chen, Sebastian Riedel, Wen-tau Yih, Sonal Gupta, Yashar Mehdad

摘要
在更大规模数据集上进行预训练,并伴随模型规模持续扩大,如今已成为几乎所有自然语言处理(NLP)任务中提升性能的可靠方法。然而,信息检索(Information Retrieval)领域是一个显著的例外——迄今为止,额外的预训练并未能产生令人信服的成效。本文表明,只要采用合适的预训练方案,这一瓶颈是可以被突破的。我们通过在以下两个数据集上对大规模双编码器(bi-encoder)模型进行预训练,验证了这一观点:1)一个 recently released 的包含6500万条合成生成问题的数据集;2)由 pushshift.io 提供的 Reddit 对话数据集中提取的2亿条帖子-评论配对。我们在一系列信息检索与对话检索基准测试上进行了评估,结果表明,所提出的方法显著优于现有的监督学习基线模型。