HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

SOTAB : Le benchmark d'annotation de tables Schema.org WDC

{Christian Bizer Ralph Peeters Keti Korini}

SOTAB : Le benchmark d'annotation de tables Schema.org WDC

Résumé

Comprendre le sens des éléments de tableau constitue une condition préalable à de nombreuses tâches d’intégration de données et de découverte de données. L’annotation de table consiste à étiqueter les éléments d’un tableau à l’aide de termes provenant d’un vocabulaire donné. Ce papier présente le WDC Schema.org Table Annotation Benchmark (SOTAB), une référence permettant de comparer les performances des systèmes d’annotation de tableaux. SOTAB couvre deux tâches : l’annotation du type de colonne (CTA) et l’annotation des propriétés des colonnes (CPA). Le benchmark fournit environ 50 000 tableaux annotés pour chacune des deux tâches, extraits de données Schema.org provenant de différents sites web. Ces tableaux couvrent 17 types d’entités différents, tels que film, événement, entreprise locale, recette, offre d’emploi ou produit. Les tableaux proviennent du WDC Schema.org Table Corpus, créé en extrayant les annotations Schema.org à partir du Common Crawl. Par conséquent, les étiquettes utilisées pour annoter les colonnes dans SOTAB font partie du vocabulaire Schema.org. Le benchmark inclut 91 types pour la tâche CTA et 176 propriétés pour CPA, réparties sur des colonnes textuelles, numériques et temporelles. Les tableaux sont divisés en ensembles fixes d’entraînement, de validation et de test. Les ensembles de test sont eux-mêmes subdivisés en sous-ensembles axés sur des défis spécifiques, tels que des colonnes avec des valeurs manquantes ou des formats de valeurs variés, afin de permettre une évaluation plus fine des systèmes d’annotation. L’évaluation de SOTAB à l’aide des systèmes Doduo et TURL montre que ce benchmark représente un défi difficile pour les systèmes d’état de l’art actuels.

Benchmarks

BenchmarkMéthodologieMétriques
column-type-annotation-on-wdc-sotabTURL
Micro F1: 78.96
column-type-annotation-on-wdc-sotabDODUO
Micro F1: 84.82
columns-property-annotation-on-wdc-sotabDODUO
Micro F1: 79.96
columns-property-annotation-on-wdc-sotabTURL
Micro F1: 72.93

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp