7ヶ月前

概要

テーブル要素の意味を理解することは、多くのデータ統合およびデータ発見タスクにおける前提条件である。テーブルアノテーションとは、与えられた語彙から用語を用いてテーブル要素にラベルを付与するタスクである。本論文では、テーブルアノテーションシステムの性能を比較するための「WDC Schema.org Table Annotation Benchmark（SOTAB）」を提示する。SOTABは、列タイプアノテーション（CTA）および列プロパティアノテーション（CPA）の2つのタスクをカバーしている。各タスクに対して、異なるウェブサイトから抽出されたSchema.orgデータを含む約5万件のアノテーション済みテーブルが提供されている。これらのテーブルは、映画、イベント、地域ビジネス、レシピ、求人情報、製品など、17種類の異なるエンティティタイプをカバーしている。SOTABのテーブルは、Common CrawlからSchema.orgアノテーションを抽出して構築されたWDC Schema.org Table Corpusから得られているため、SOTABにおける列のアノテーションに使用されるラベルはすべてSchema.org語彙の一部である。本ベンチマークは、CTAに対して91種類の型、CPAに対して176種類のプロパティを、テキスト、数値、日付/時刻の列にわたってカバーしている。また、固定された学習用、検証用、テスト用のデータセットにテーブルが分割されており、テストセットは欠損値を含む列や異なる値形式を有する列といった特定の課題に焦点を当てたサブセットにさらに分かれている。これにより、アノテーションシステムの性能をより細かく比較することが可能となる。DoduoおよびTURLを用いたSOTABの評価結果から、現在の最先端システムにとってもこのベンチマークは非常に困難であることが明らかになった。

ソースPDF コードを表示