19 天前

冻结的预训练语言模型能否用于实体中心型问题的零样本神经检索？

Yasuto Hoshi, Daisuke Miyashita, Yasuhiro Morioka, Youyang Ng, Osamu Torii, Jun Deguchi

摘要

神经文档检索模型，包括密集段落检索（Dense Passage Retrieval, DPR），在针对特定问答数据集进行微调和测试时，已超越传统的基于词法匹配的检索模型（如BM25）。然而，已有研究表明，现有密集检索模型不仅在跨领域场景下泛化能力较差，在领域内（如维基百科）也存在显著局限性，尤其是在问题中包含命名实体作为关键检索线索时。本文提出一种面向领域内泛化的新型方法，利用在目标领域实体上预训练的冻结语言模型生成的嵌入表示。通过不进行微调，我们探索了预训练语言模型中蕴含的丰富知识在检索任务中的潜在应用价值。实验结果表明，该方法在维基百科领域针对以实体为中心的问题上，显著优于传统DPR模型，并在性能上接近BM25及当前最先进的SPAR模型。此外，当实体名称由常见词汇构成时，上下文感知的检索键（contextualized keys）相较于BM25展现出显著的性能提升。本研究验证了在维基百科领域针对以实体为中心的问题，零样本检索方法的可行性，而这一任务正是DPR模型长期难以有效应对的挑战。