HyperAI超神经

摘要

检测关系表中数据列的语义类型对于数据清洗、模式匹配、数据发现和语义搜索等各种数据准备和信息检索任务至关重要。然而，现有的检测方法要么在处理脏数据时表现不佳，要么仅支持有限数量的语义类型，要么未能结合列的表格上下文，或者依赖于大量训练样本。我们介绍了一种名为Sato的混合机器学习模型，该模型能够自动检测表格中列的语义类型，利用来自上下文和列值的信号。Sato结合了在大规模表格语料库上训练的深度学习模型、主题建模和结构化预测，分别实现了支持加权F1分数为0.925和宏平均F1分数为0.735，显著超过了现有最先进方法的表现。我们对Sato的整体性能及其按类型的性能进行了深入分析，讨论了各个建模组件以及特征类别对其性能的贡献。

摘要

Dan Zhang Yoshihiko Suhara Jinfeng Li Madelon Hulsebos Çağatay Demiralp Wang-Chiew Tan

摘要

用 AI 构建 AI

HyperAI Newsletters

Dan Zhang Yoshihiko Suhara Jinfeng Li Madelon Hulsebos Çağatay Demiralp Wang-Chiew Tan

摘要

用 AI 构建 AI

HyperAI Newsletters

Dan Zhang Yoshihiko Suhara Jinfeng Li Madelon Hulsebos Çağatay Demiralp Wang-Chiew Tan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Sato：表格中的上下文语义类型检测

Dan Zhang Yoshihiko Suhara Jinfeng Li Madelon Hulsebos Çağatay Demiralp Wang-Chiew Tan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Sato：表格中的上下文语义类型检测

Dan Zhang Yoshihiko Suhara Jinfeng Li Madelon Hulsebos Çağatay Demiralp Wang-Chiew Tan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Sato：表格中的上下文语义类型检测

Dan Zhang Yoshihiko Suhara Jinfeng Li Madelon Hulsebos Çağatay Demiralp Wang-Chiew Tan

摘要

用 AI 构建 AI

HyperAI Newsletters