9 天前

TorchicTab:基于Wikidata与语言模型的语义表格标注

{Anastasia Dimou, Xuemin Duan, Duo Yang, Ioannis Dasoulas}
TorchicTab:基于Wikidata与语言模型的语义表格标注
摘要

大量表格数据存在并被各类应用广泛使用,但其中相当一部分缺乏必要的语义信息,导致用户和机器难以准确理解这些数据。这种表格语义理解的缺失,严重制约了其在数据处理分析流程中的应用。尽管已有若干解决方案可用于语义化解析表格,但这些方法通常局限于特定的标注任务和表格类型,且依赖庞大的知识库,难以在真实场景中复用。因此,亟需开发更加鲁棒、能够生成更精确标注并适应多种表格类型的系统。为推动表格语义解析技术的发展,国际上设立了“表格数据到知识图谱匹配的语义网络挑战赛”(Semantic Web Challenge on Tabular Data to Knowledge Graph Matching,简称 SemTab),旨在通过在多样化的数据集和任务上评估系统性能,建立统一的基准测试体系。本文提出了一种名为 TorchicTab 的通用型语义表格解析系统。该系统能够通过利用外部知识图谱(如 Wikidata)或预先标注并包含预定义术语的表格数据,对结构各异的表格进行有效标注。我们在 SemTab 挑战赛所涵盖的不同标注任务上对 TorchicTab 进行了全面评估。实验结果表明,该系统在多种数据集上均能实现高精度的语义标注,展现出良好的泛化能力与实用性。

TorchicTab:基于Wikidata与语言模型的语义表格标注 | 最新论文 | HyperAI超神经