
摘要
理解表格元素的语义是实现诸多数据集成与数据发现任务的前提。表格标注(Table Annotation)是指将表格中的元素用给定词汇表中的术语进行标记的任务。本文提出了WDC Schema.org表格标注基准(WDC Schema.org Table Annotation Benchmark, 简称SOTAB),用于评估和比较不同表格标注系统的表现。SOTAB涵盖两类任务:列类型标注(Column Type Annotation, CTA)与列属性标注(Column Property Annotation, CPA)。SOTAB为每项任务提供了约5万张已标注的表格,数据来源于不同网站的Schema.org信息。这些表格覆盖了17种不同类型的实体,包括电影、活动、本地企业、食谱、职位发布以及产品等。所有表格均源自WDC Schema.org表格语料库,该语料库通过从Common Crawl中提取Schema.org标注信息构建而成。因此,SOTAB中用于列标注的标签均属于Schema.org词汇体系。该基准涵盖91种列类型(CTA)和176种属性(CPA),覆盖文本、数值及日期/时间三类列。所有表格被划分为固定的训练集、验证集和测试集。测试集进一步细分为多个子集,针对特定挑战进行划分,例如包含缺失值的列或采用不同数据格式的列,从而支持对标注系统性能的更精细比较。基于Doduo与TURL系统的评估结果表明,当前最先进的表格标注系统在SOTAB基准上仍面临较大挑战,说明该基准具有较高的难度和现实意义。