2 个月前

基于上下文的神经语言模型在信息检索中的深度文本理解

Zhuyun Dai; Jamie Callan

摘要

神经网络为自动学习复杂的语言模式和查询-文档关系提供了新的可能性。神经信息检索（IR）模型在学习查询-文档相关性模式方面已取得令人鼓舞的结果，但在理解查询或文档的文本内容方面却鲜有探索。本文研究了利用最近提出的上下文神经语言模型BERT，为信息检索提供更深层次的文本理解。实验结果表明，BERT提供的上下文文本表示比传统的词嵌入更为有效。与基于词袋的检索模型相比，上下文语言模型能够更好地利用语言结构，对自然语言编写的查询带来了显著的改进。将文本理解能力与搜索知识相结合，可以得到一个增强的预训练BERT模型，该模型能够在训练数据有限的相关搜索任务中发挥优势。