Command Palette
Search for a command to run...
Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

摘要
语言模型(LMs)正越来越多地驱动需要世界知识的实际应用。然而,模型如何将数据转化为对世界知识与信念的表征,其内部机制仍不清晰。深入理解这些过程,有望推动开发出知识表征更一致、更鲁棒、更完整的语言模型。为促进对这些问题的研究,我们提出了LMEnt——一个用于分析语言模型在预训练过程中知识获取的工具套件。LMEnt包含以下三项核心内容:(1)一个基于维基百科构建、富含知识的预训练语料库,其中所有实体提及均经过完整标注;(2)一种基于实体的预训练数据检索方法,性能较以往方法最高提升达80.4%;(3)12个预训练模型,参数规模最高达10亿,包含4000个中间检查点,其在知识基准测试上的表现与主流开源模型相当。上述资源共同构建了一个可控的研究环境,可用于分析预训练阶段实体提及与下游任务性能之间的关联,以及预训练数据中因果干预的影响。我们通过LMEnt研究了不同检查点间知识获取的动态过程,发现事实出现频率是关键因素,但并不能完全解释学习趋势。我们已公开发布LMEnt,以支持对语言模型中知识相关问题的深入研究,包括知识表征、可塑性、知识编辑、归因分析以及学习动态等方向。