Command Palette

Search for a command to run...

2 个月前

LMEnt:一种从预训练数据到表征分析语言模型知识的工具套件

Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

LMEnt:一种从预训练数据到表征分析语言模型知识的工具套件

摘要

语言模型(LMs)正越来越多地驱动需要世界知识的实际应用。然而,模型如何将数据转化为对世界知识与信念的表征,其内部机制仍不清晰。深入理解这些过程,有望推动开发出知识表征更一致、更鲁棒、更完整的语言模型。为促进对这些问题的研究,我们提出了LMEnt——一个用于分析语言模型在预训练过程中知识获取的工具套件。LMEnt包含以下三项核心内容:(1)一个基于维基百科构建、富含知识的预训练语料库,其中所有实体提及均经过完整标注;(2)一种基于实体的预训练数据检索方法,性能较以往方法最高提升达80.4%;(3)12个预训练模型,参数规模最高达10亿,包含4000个中间检查点,其在知识基准测试上的表现与主流开源模型相当。上述资源共同构建了一个可控的研究环境,可用于分析预训练阶段实体提及与下游任务性能之间的关联,以及预训练数据中因果干预的影响。我们通过LMEnt研究了不同检查点间知识获取的动态过程,发现事实出现频率是关键因素,但并不能完全解释学习趋势。我们已公开发布LMEnt,以支持对语言模型中知识相关问题的深入研究,包括知识表征、可塑性、知识编辑、归因分析以及学习动态等方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供