HyperAIHyperAI
il y a 9 jours

SOTAB : Le benchmark d'annotation de tables Schema.org WDC

{Christian Bizer, Ralph Peeters, Keti Korini}
SOTAB : Le benchmark d'annotation de tables Schema.org WDC
Résumé

Comprendre le sens des éléments de tableau constitue une condition préalable à de nombreuses tâches d’intégration de données et de découverte de données. L’annotation de table consiste à étiqueter les éléments d’un tableau à l’aide de termes provenant d’un vocabulaire donné. Ce papier présente le WDC Schema.org Table Annotation Benchmark (SOTAB), une référence permettant de comparer les performances des systèmes d’annotation de tableaux. SOTAB couvre deux tâches : l’annotation du type de colonne (CTA) et l’annotation des propriétés des colonnes (CPA). Le benchmark fournit environ 50 000 tableaux annotés pour chacune des deux tâches, extraits de données Schema.org provenant de différents sites web. Ces tableaux couvrent 17 types d’entités différents, tels que film, événement, entreprise locale, recette, offre d’emploi ou produit. Les tableaux proviennent du WDC Schema.org Table Corpus, créé en extrayant les annotations Schema.org à partir du Common Crawl. Par conséquent, les étiquettes utilisées pour annoter les colonnes dans SOTAB font partie du vocabulaire Schema.org. Le benchmark inclut 91 types pour la tâche CTA et 176 propriétés pour CPA, réparties sur des colonnes textuelles, numériques et temporelles. Les tableaux sont divisés en ensembles fixes d’entraînement, de validation et de test. Les ensembles de test sont eux-mêmes subdivisés en sous-ensembles axés sur des défis spécifiques, tels que des colonnes avec des valeurs manquantes ou des formats de valeurs variés, afin de permettre une évaluation plus fine des systèmes d’annotation. L’évaluation de SOTAB à l’aide des systèmes Doduo et TURL montre que ce benchmark représente un défi difficile pour les systèmes d’état de l’art actuels.

SOTAB : Le benchmark d'annotation de tables Schema.org WDC | Articles de recherche récents | HyperAI