7 个月前

自然语言处理

自然语言处理

Sirko Schindler Nora Abdelmageed

摘要

尽管表格是结构化信息的重要来源，但其自动化利用常常受到内在歧义性的制约。从简单的拼写错误、命名规范不一致，到数值之间的同义现象，这些问题均构成了挖掘此类知识资源的重大障碍。尽管语义网技术能够在一定程度上缓解上述挑战，但实际的数据标注过程依然充满困难。为促进新思路的产生以及现有方法的持续改进，自2019年起，语义网挑战赛“表格数据到知识图谱匹配”（SemTab）每年举办竞赛，为各类系统提供展示其当前能力的平台。来自不同来源和具有各异特征的数据集，凸显了该领域所面临的多样化挑战。本文报告了我们的系统“JenTab”在SemTab2021中的演进过程。在该年度挑战中，我们对系统架构进行了重新设计，优化了各个模块，并构建了多种处理流程，以应对比赛中出现的特定难题。JenTab在SemTab2021的前两轮比赛中均位列前五名，结果充分体现了该系统良好的灵活性及其快速应对新挑战的能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Sirko Schindler Nora Abdelmageed

摘要

尽管表格是结构化信息的重要来源，但其自动化利用常常受到内在歧义性的制约。从简单的拼写错误、命名规范不一致，到数值之间的同义现象，这些问题均构成了挖掘此类知识资源的重大障碍。尽管语义网技术能够在一定程度上缓解上述挑战，但实际的数据标注过程依然充满困难。为促进新思路的产生以及现有方法的持续改进，自2019年起，语义网挑战赛“表格数据到知识图谱匹配”（SemTab）每年举办竞赛，为各类系统提供展示其当前能力的平台。来自不同来源和具有各异特征的数据集，凸显了该领域所面临的多样化挑战。本文报告了我们的系统“JenTab”在SemTab2021中的演进过程。在该年度挑战中，我们对系统架构进行了重新设计，优化了各个模块，并构建了多种处理流程，以应对比赛中出现的特定难题。JenTab在SemTab2021的前两轮比赛中均位列前五名，结果充分体现了该系统良好的灵活性及其快速应对新挑战的能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供