17 天前

KAMEL:语言模型中的多标记实体知识分析

{Leandra Fichtel, Jan-Christoph Kalo}
KAMEL:语言模型中的多标记实体知识分析
摘要

大型语言模型(LMs)已被证明能够从预训练语料库中捕捉大量关系型知识。通过使用填空式提示(cloze-style prompts),可在LAMA基准测试中对这些模型的事实知识进行探测。然而,近期研究发现,此类测试结果表现良好,主要归因于模型擅长进行合理推测或从训练数据中回忆事实,而非真正掌握深层知识。为此,本文提出一种基于Wikidata的新型基准数据集KAMEL,用于更精准地探测语言模型中的关系知识。与以往数据集相比,KAMEL覆盖了更广泛的知识领域,能够探测单标记和多标记实体,并包含具有具体取值(literal values)的事实。此外,其评估机制更为精确:数据集提供了实体的替代标签,并支持高基数关系(higher-cardinality relations)的测试。不同于以往在掩码语言模型上进行评估的做法,本文在少量示例(few-shot)设置下,对多种近期因果语言模型进行了评估。结果表明,尽管新模型在LAMA基准上表现优异,F1分数达到52.90%,但在KAMEL上的表现却仅达到17.62%。分析显示,即使大型语言模型在关系知识的掌握方面已取得显著进展,仍远未达到能够完全记忆知识图谱中所有类型关系知识的程度。