17 天前

UniversalNER:面向开放命名实体识别的大语言模型定向蒸馏

Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon
UniversalNER:面向开放命名实体识别的大语言模型定向蒸馏
摘要

大型语言模型(LLMs)展现出卓越的泛化能力,例如能够理解任意实体与关系。指令微调(instruction tuning)已被证明在将大型语言模型蒸馏为更高效的小型模型方面非常有效,如 Alpaca 和 Vicuna 等模型。然而,在下游应用中,这些小型学生模型与原始大模型相比仍存在显著差距。本文提出一种面向特定任务的定向蒸馏方法,结合任务聚焦的指令微调,训练出能在广泛应用场景(如开放信息抽取)中表现优异的学生模型。以命名实体识别(NER)为例,我们展示了如何将 ChatGPT 蒸馏为参数量极小但性能强大的通用 NER 模型——UniversalNER,用于开放域实体识别。为评估模型性能,我们构建了迄今为止规模最大的 NER 基准数据集,涵盖 9 个不同领域(包括生物医学、编程、社交媒体、法律、金融等)的共 43 个数据集。在无需任何直接监督信号的情况下,UniversalNER 在数万种实体类型上均实现了出色的识别准确率,平均 F1 分数较通用指令微调模型(如 Alpaca 和 Vicuna)高出超过 30 个百分点。尽管参数量仅为原始模型的极小部分,UniversalNER 不仅成功继承了 ChatGPT 识别任意实体类型的能力,其 NER 性能在平均 F1 上还超越了 ChatGPT 本身 7 至 9 个百分点。尤为突出的是,UniversalNER 在性能上大幅超越当前最先进的多任务指令微调系统 InstructUIE,后者依赖于监督的 NER 示例进行训练。我们还进行了详尽的消融实验,系统评估了蒸馏方法中各项组件的影响。为推动面向特定任务的模型蒸馏研究,我们公开了完整的蒸馏方法流程、所用数据及训练好的 UniversalNER 模型。