2 个月前

LMEnt：一种从预训练数据到表征分析语言模型知识的工具套件

Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

摘要

语言模型（LMs）正越来越多地驱动需要世界知识的实际应用。然而，模型如何将数据转化为对世界知识与信念的表征，其内部机制仍不清晰。深入理解这些过程，有望推动开发出知识表征更一致、更鲁棒、更完整的语言模型。为促进对这些问题的研究，我们提出了LMEnt——一个用于分析语言模型在预训练过程中知识获取的工具套件。LMEnt包含以下三项核心内容：（1）一个基于维基百科构建、富含知识的预训练语料库，其中所有实体提及均经过完整标注；（2）一种基于实体的预训练数据检索方法，性能较以往方法最高提升达80.4%；（3）12个预训练模型，参数规模最高达10亿，包含4000个中间检查点，其在知识基准测试上的表现与主流开源模型相当。上述资源共同构建了一个可控的研究环境，可用于分析预训练阶段实体提及与下游任务性能之间的关联，以及预训练数据中因果干预的影响。我们通过LMEnt研究了不同检查点间知识获取的动态过程，发现事实出现频率是关键因素，但并不能完全解释学习趋势。我们已公开发布LMEnt，以支持对语言模型中知识相关问题的深入研究，包括知识表征、可塑性、知识编辑、归因分析以及学习动态等方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

LMEnt：一种从预训练数据到表征分析语言模型知识的工具套件

Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

摘要

用 AI 构建 AI

Hyper Newsletters