16 天前
上下文中的知识:迈向具备知识能力的半参数化语言模型
Xiaoman Pan, Wenlin Yao, Hongming Zhang, Dian Yu, Dong Yu, Jianshu Chen

摘要
全参数化语言模型通常需要大量模型参数来存储解决多种自然语言任务所需的必要知识,这些任务在零样本或少样本设置下进行。此外,由于缺乏成本高昂的模型重训练,这类模型难以适应不断变化的世界知识。本文提出一种新颖的半参数化语言模型架构——上下文知识(Knowledge-in-Context, KiC),该架构为参数化文本到文本语言模型赋予了一个富含知识的外部记忆。具体而言,该外部记忆包含六类不同类型的先验知识:实体知识、词典知识、常识知识、事件知识、脚本知识以及因果关系知识。对于每一个输入实例,KiC模型能够自适应地选择最相关的知识类型,并检索出最具帮助性的知识片段。随后,将原始输入实例与其增强后的知识信息共同输入至一个文本到文本模型(如T5)中,生成最终的输出答案,且输入与输出均以自然语言形式呈现,通过提示(prompting)实现。有趣的是,我们发现KiC可被识别为一种特殊的专家混合模型(Mixture-of-Experts, MoE),其中知识选择器充当路由机制(router),用于决定输入序列到特定专家的分配关系。这一关键观察启发我们设计了一种新型训练算法,支持基于实例自适应的知识选择器。作为一款知识丰富的半参数化语言模型,KiC仅需较小规模的参数化部分,即可在未见过的任务上实现卓越的零样本性能。在超过40项不同任务上的评估表明,仅含7.7亿参数的KiC_Large模型,在性能上显著超越了参数量为其4至39倍的大规模语言模型(LMs)。此外,我们还证明,相较于全参数化模型,KiC在更小的模型规模下即可展现出显著的涌现能力。