
摘要
语言模型的预训练已被证明能够捕捉大量世界知识,这对于问答等自然语言处理任务至关重要。然而,这些知识以隐式方式存储于神经网络的参数中,因此需要不断扩展模型规模以涵盖更多事实。为实现更模块化且可解释的知识表示,我们提出在语言模型预训练过程中引入一个潜在知识检索器(latent knowledge retriever),使模型能够在预训练、微调和推理阶段,从大规模语料库(如维基百科)中检索并关注相关文档。这是首次实现该知识检索器的无监督预训练方法,我们采用掩码语言建模作为学习信号,并通过反向传播机制处理包含数百万文档的检索步骤。我们通过在开放域问答(Open-domain Question Answering, Open-QA)这一具有挑战性的任务上进行微调,验证了检索增强型语言模型预训练(Retrieval-Augmented Language Model pre-training, REALM)的有效性。在三个主流Open-QA基准测试中,我们与当前最先进的、基于显式或隐式知识存储的模型进行对比,结果表明,我们的方法在准确率上显著优于所有先前方法,绝对提升达4%至16%。此外,REALM还带来了可解释性和模块化等定性优势。