摘要
监督式实体消歧方法依赖于已标注的记录对来学习两个或多个数据源之间的匹配模式。主动学习通过选择最具信息量的记录对进行标注,从而最小化标注成本。然而,现有的实体消歧主动学习方法均仅针对双源匹配场景,忽略了仅存在于多源环境中的信号,例如“数据之网”(Web of Data)中的上下文信息。本文提出ALMSER——一种面向多源实体消歧的图增强型主动学习方法。据我们所知,ALMSER是首个专为多源场景量身定制的基于主动学习的实体消歧方法。ALMSER充分利用多源环境下存在的丰富对应关系图(correspondence graph)来选择最具信息量的记录对,并进一步利用该图结构生成互补的训练数据。我们在五个具有不同数据特征的多源匹配任务上对所提方法进行了评估。实验结果表明,在所有任务上,相较于基于间隔(margin-based)和委员会(committee-based)查询策略的主动学习方法,ALMSER通过利用图结构信号,在F1得分上均取得了显著提升。