17 天前
Bootleg:通过自监督命名实体消歧追踪尾部实体
Laurel Orr, Megan Leszczynski, Simran Arora, Sen Wu, Neel Guha, Xiao Ling, Christopher Re

摘要
命名实体消歧(Named Entity Disambiguation, NED)是指将文本中的实体提及映射到知识库中对应实体的任务。该任务面临的一个挑战是如何处理在训练数据中出现频率极低的实体,即“尾部实体”(tail entities)。人类在消歧不熟悉实体时,通常依赖于对实体事实、关系及类型等知识的细微推理模式。受此启发,我们提出了 Bootleg——一种基于自监督学习的 NED 系统,其设计明确以实体消歧的推理模式为根基。我们定义了核心的消歧推理模式,并设计了一套学习机制,引导自监督模型主动学习这些模式;同时,我们提出利用弱监督方法增强训练数据中的信号。通过将这些推理模式编码至一个简洁的 Transformer 架构中,Bootleg 在三个主流 NED 基准测试上达到或超越了当前最优水平。进一步实验表明,Bootleg 学习到的实体表示具有良好的泛化能力,可成功迁移至其他依赖实体知识的非消歧任务。在广受关注的 TACRED 关系抽取任务中,Bootleg 将 F1 分数提升 1.0 点,创下新的最先进性能记录;在一家大型科技公司的实际生产级搜索与智能助手任务中,也实现了最高达 8% 的性能提升,充分验证了其在高度优化系统中的实用价值。