16 天前

基于自然语言蕴含的间接监督实现超细粒度实体类型识别

Bangzheng Li, Wenpeng Yin, Muhao Chen
基于自然语言蕴含的间接监督实现超细粒度实体类型识别
摘要

超细粒度实体类型识别(Ultra-Fine Entity Typing, UFET)旨在预测描述句子中提及实体的多样化且自由形式的词汇或短语。该任务面临的主要挑战在于类型数量庞大,而每种类型对应的标注数据极为稀缺。现有系统通常将该任务建模为多分类问题,并采用直接监督或远程监督的方式训练分类器。这种方法存在两个关键问题:(i)由于类型常被转换为索引,分类器难以捕捉类型之间的语义关系;(ii)此类系统仅限于预测预定义类型集合中的类型,难以泛化到训练阶段罕见或未见的类型。本文提出一种新方法——LITE(Learning to Infer Type via Entailment),将实体类型识别建模为自然语言推理(Natural Language Inference, NLI)问题。该方法利用:(i)来自NLI的间接监督信号,通过以文本假设(textual hypotheses)形式有意义地表示类型信息,缓解数据稀缺问题;(ii)基于学习排序(learning-to-rank)的目标函数,避免预先定义类型集合的限制。实验结果表明,在训练数据有限的情况下,LITE在UFET任务上达到了当前最优性能。此外,LITE展现出强大的泛化能力:不仅在其他细粒度实体类型识别基准上取得最佳结果,更重要的是,预训练的LITE模型在包含未见类型的全新数据上也能表现良好,具备出色的开放域适应能力。

基于自然语言蕴含的间接监督实现超细粒度实体类型识别 | 最新论文 | HyperAI超神经