
摘要
尽管表格是结构化信息的重要来源,但其自动化利用常常受到内在歧义性的制约。从简单的拼写错误、命名规范不一致,到数值之间的同义现象,这些问题均构成了挖掘此类知识资源的重大障碍。尽管语义网技术能够在一定程度上缓解上述挑战,但实际的数据标注过程依然充满困难。为促进新思路的产生以及现有方法的持续改进,自2019年起,语义网挑战赛“表格数据到知识图谱匹配”(SemTab)每年举办竞赛,为各类系统提供展示其当前能力的平台。来自不同来源和具有各异特征的数据集,凸显了该领域所面临的多样化挑战。本文报告了我们的系统“JenTab”在SemTab2021中的演进过程。在该年度挑战中,我们对系统架构进行了重新设计,优化了各个模块,并构建了多种处理流程,以应对比赛中出现的特定难题。JenTab在SemTab2021的前两轮比赛中均位列前五名,结果充分体现了该系统良好的灵活性及其快速应对新挑战的能力。