17 天前
基于上下文还是名称?一项关于神经关系抽取的实证研究
Hao Peng, Tianyu Gao, Xu Han, Yankai Lin, Peng Li, Zhiyuan Liu, Maosong Sun, Jie Zhou

摘要
神经网络模型在关系抽取(Relation Extraction, RE)基准测试中取得了显著成功。然而,目前尚缺乏对现有RE模型决策机制的清晰理解:究竟是哪些类型的信息影响了模型的判断,以及如何进一步提升其性能。为此,我们通过实证研究,系统分析了文本中两种主要信息源——文本上下文和实体提及(即实体名称)——对模型决策的影响。研究发现:(i)尽管上下文是支持预测的主要信息来源,但RE模型仍高度依赖实体提及所提供的信息,其中绝大部分为实体类型信息;(ii)现有数据集可能通过实体提及泄露浅层启发式规则,从而在一定程度上导致模型在RE基准上表现出较高的性能。基于上述分析,我们提出了一种实体掩码对比预训练框架(Entity-Masked Contrastive Pre-training Framework for RE),旨在使模型更深入地理解文本上下文与实体类型信息,同时避免对具体实体的机械记忆或对提及中表面线索的依赖。我们通过大量实验验证了该框架的有效性,结果表明,该方法能够显著提升神经网络模型在多种关系抽取场景下的性能表现与鲁棒性。相关代码与数据集均已开源,地址为:https://github.com/thunlp/RE-Context-or-Names。