3 个月前

KAMEL：语言模型中的多标记实体知识分析

{Leandra Fichtel, Jan-Christoph Kalo}

摘要

大型语言模型（LMs）已被证明能够从预训练语料库中捕捉大量关系型知识。通过使用填空式提示（cloze-style prompts），可在LAMA基准测试中对这些模型的事实知识进行探测。然而，近期研究发现，此类测试结果表现良好，主要归因于模型擅长进行合理推测或从训练数据中回忆事实，而非真正掌握深层知识。为此，本文提出一种基于Wikidata的新型基准数据集KAMEL，用于更精准地探测语言模型中的关系知识。与以往数据集相比，KAMEL覆盖了更广泛的知识领域，能够探测单标记和多标记实体，并包含具有具体取值（literal values）的事实。此外，其评估机制更为精确：数据集提供了实体的替代标签，并支持高基数关系（higher-cardinality relations）的测试。不同于以往在掩码语言模型上进行评估的做法，本文在少量示例（few-shot）设置下，对多种近期因果语言模型进行了评估。结果表明，尽管新模型在LAMA基准上表现优异，F1分数达到52.90%，但在KAMEL上的表现却仅达到17.62%。分析显示，即使大型语言模型在关系知识的掌握方面已取得显著进展，仍远未达到能够完全记忆知识图谱中所有类型关系知识的程度。