Command Palette

Search for a command to run...

4ヶ月前

SOTAB:WDC Schema.org テーブル注釈ベンチマーク

{Christian Bizer Ralph Peeters Keti Korini}

SOTAB:WDC Schema.org テーブル注釈ベンチマーク

要約

テーブル要素の意味を理解することは、多くのデータ統合およびデータ発見タスクにおける前提条件である。テーブルアノテーションとは、与えられた語彙から用語を用いてテーブル要素にラベルを付与するタスクである。本論文では、テーブルアノテーションシステムの性能を比較するための「WDC Schema.org Table Annotation Benchmark(SOTAB)」を提示する。SOTABは、列タイプアノテーション(CTA)および列プロパティアノテーション(CPA)の2つのタスクをカバーしている。各タスクに対して、異なるウェブサイトから抽出されたSchema.orgデータを含む約5万件のアノテーション済みテーブルが提供されている。これらのテーブルは、映画、イベント、地域ビジネス、レシピ、求人情報、製品など、17種類の異なるエンティティタイプをカバーしている。SOTABのテーブルは、Common CrawlからSchema.orgアノテーションを抽出して構築されたWDC Schema.org Table Corpusから得られているため、SOTABにおける列のアノテーションに使用されるラベルはすべてSchema.org語彙の一部である。本ベンチマークは、CTAに対して91種類の型、CPAに対して176種類のプロパティを、テキスト、数値、日付/時刻の列にわたってカバーしている。また、固定された学習用、検証用、テスト用のデータセットにテーブルが分割されており、テストセットは欠損値を含む列や異なる値形式を有する列といった特定の課題に焦点を当てたサブセットにさらに分かれている。これにより、アノテーションシステムの性能をより細かく比較することが可能となる。DoduoおよびTURLを用いたSOTABの評価結果から、現在の最先端システムにとってもこのベンチマークは非常に困難であることが明らかになった。

ベンチマーク

ベンチマーク方法論指標
column-type-annotation-on-wdc-sotabTURL
Micro F1: 78.96
column-type-annotation-on-wdc-sotabDODUO
Micro F1: 84.82
columns-property-annotation-on-wdc-sotabDODUO
Micro F1: 79.96
columns-property-annotation-on-wdc-sotabTURL
Micro F1: 72.93

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SOTAB:WDC Schema.org テーブル注釈ベンチマーク | 論文 | HyperAI超神経