2 个月前
Sato:表格中的上下文语义类型检测
Dan Zhang; Yoshihiko Suhara; Jinfeng Li; Madelon Hulsebos; Çağatay Demiralp; Wang-Chiew Tan

摘要
检测关系表中数据列的语义类型对于数据清洗、模式匹配、数据发现和语义搜索等各种数据准备和信息检索任务至关重要。然而,现有的检测方法要么在处理脏数据时表现不佳,要么仅支持有限数量的语义类型,要么未能结合列的表格上下文,或者依赖于大量训练样本。我们介绍了一种名为Sato的混合机器学习模型,该模型能够自动检测表格中列的语义类型,利用来自上下文和列值的信号。Sato结合了在大规模表格语料库上训练的深度学习模型、主题建模和结构化预测,分别实现了支持加权F1分数为0.925和宏平均F1分数为0.735,显著超过了现有最先进方法的表现。我们对Sato的整体性能及其按类型的性能进行了深入分析,讨论了各个建模组件以及特征类别对其性能的贡献。