HyperAIHyperAI

Command Palette

Search for a command to run...

SOTAB : Le benchmark d'annotation de tables Schema.org WDC

Christian Bizer Ralph Peeters Keti Korini

Résumé

Comprendre le sens des éléments de tableau constitue une condition préalable à de nombreuses tâches d’intégration de données et de découverte de données. L’annotation de table consiste à étiqueter les éléments d’un tableau à l’aide de termes provenant d’un vocabulaire donné. Ce papier présente le WDC Schema.org Table Annotation Benchmark (SOTAB), une référence permettant de comparer les performances des systèmes d’annotation de tableaux. SOTAB couvre deux tâches : l’annotation du type de colonne (CTA) et l’annotation des propriétés des colonnes (CPA). Le benchmark fournit environ 50 000 tableaux annotés pour chacune des deux tâches, extraits de données Schema.org provenant de différents sites web. Ces tableaux couvrent 17 types d’entités différents, tels que film, événement, entreprise locale, recette, offre d’emploi ou produit. Les tableaux proviennent du WDC Schema.org Table Corpus, créé en extrayant les annotations Schema.org à partir du Common Crawl. Par conséquent, les étiquettes utilisées pour annoter les colonnes dans SOTAB font partie du vocabulaire Schema.org. Le benchmark inclut 91 types pour la tâche CTA et 176 propriétés pour CPA, réparties sur des colonnes textuelles, numériques et temporelles. Les tableaux sont divisés en ensembles fixes d’entraînement, de validation et de test. Les ensembles de test sont eux-mêmes subdivisés en sous-ensembles axés sur des défis spécifiques, tels que des colonnes avec des valeurs manquantes ou des formats de valeurs variés, afin de permettre une évaluation plus fine des systèmes d’annotation. L’évaluation de SOTAB à l’aide des systèmes Doduo et TURL montre que ce benchmark représente un défi difficile pour les systèmes d’état de l’art actuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp