17 天前

WikiGUM:12种文体中的全面实体链接用于维基化

Jessica Lin, Amir Zeldes
WikiGUM:12种文体中的全面实体链接用于维基化
摘要

先前的实体链接(Entity Linking)研究主要聚焦于非嵌套专有命名实体指代的资源,通常基于维基百科数据,即所谓的“维基化”(Wikification)任务。本文提出并评估了WikiGUM,这是一个全面完成维基化的数据集,涵盖了所有类型的命名实体指代,包括非命名实体指代、代词指代以及嵌套于其他指代之中的实体指代。该数据集覆盖了12种广泛的语言体裁,既包括书面语也包括口语,其中大多数体裁此前未被纳入实体链接研究范畴,导致我们在评估中发现预训练的最先进(SOTA)系统在该数据集上表现不佳。此外,该数据集还提供了多种其他标注信息,为在具体语境中开展实体相关研究提供了有力支持。

WikiGUM:12种文体中的全面实体链接用于维基化 | 最新论文 | HyperAI超神经