18 天前

端到端查询词加权

{Marc Najork, Mike Bendersky, Kashyap Kolipaka, Xingyu Wang, Wensong Xu, Swaraj Khadanga, Shaleen Gupta, Mingyang Zhang, Tao Chen, Weize Kong, Cheng Li, Karan Samel}
摘要

基于词袋(bag-of-words)的词汇检索系统仍是当前实际搜索应用中最常用的方法。尽管近年来深度学习方法在提升检索性能方面展现出良好前景,但其在线运行成本较高,难以无缝集成到现有的生产系统中,且在跨领域检索场景下泛化能力有限。为此,我们基于现有词汇检索器提出了一种新的Term Weighting BERT(TW-BERT)模型。TW-BERT旨在学习为查询输入中的各个n-gram(如一元语法和二元语法)分配权重。这些推断出的权重与词项可直接被检索系统用于执行查询搜索。为优化这些词项权重,TW-BERT引入了搜索引擎所使用的评分函数(如BM25)来对查询-文档对进行打分。给定一组查询-文档样本对,我们可基于匹配得分计算排序损失(ranking loss),并以端到端的方式优化所学习的查询词项权重。通过将TW-BERT与搜索引擎的评分器对齐,显著降低了其在现有生产系统中集成所需的改动,而现有的基于深度学习的检索方法通常需要额外的基础设施优化和更高的硬件支持。所学习到的权重可轻松应用于标准的词汇检索器,也可推广至其他检索技术(如查询扩展)。实验结果表明,TW-BERT在MSMARCO数据集上显著优于现有的强基准词项加权方法,并在TREC数据集的跨领域检索任务中也展现出更优的性能。