HyperAIHyperAI
vor 9 Tagen

SOTAB: Der WDC Schema.org Table Annotation Benchmark

{Christian Bizer, Ralph Peeters, Keti Korini}
SOTAB: Der WDC Schema.org Table Annotation Benchmark
Abstract

Das Verständnis der Semantik von Tabellenelementen ist eine Voraussetzung für zahlreiche Aufgaben im Bereich Datenintegration und Datenentdeckung. Die Tabellenannotation ist die Aufgabe, Tabellenelemente mit Begriffen aus einem vorgegebenen Vokabular zu kennzeichnen. In diesem Artikel präsentieren wir den WDC Schema.org Table Annotation Benchmark (SOTAB), um die Leistungsfähigkeit von Tabellenannotationssystemen zu vergleichen. SOTAB umfasst die Aufgaben der Spaltentypannotierung (Column Type Annotation, CTA) und der Spalten-Eigenschaftsannotierung (Column Property Annotation, CPA). Für jede dieser Aufgaben stellt SOTAB etwa 50.000 annotierte Tabellen bereit, die Schema.org-Daten aus verschiedenen Websites enthalten. Die Tabellen decken 17 verschiedene Entitätstypen ab, wie beispielsweise Film, Ereignis, lokale Geschäftsstelle, Rezept, Stellenangebot oder Produkt. Die Tabellen stammen aus dem WDC Schema.org Table Corpus, das durch Extraktion von Schema.org-Anmerkungen aus dem Common Crawl erstellt wurde. Daher sind die zur Annotation von Spalten verwendeten Labels Teil des Schema.org-Vokabulars. Der Benchmark umfasst 91 Typen für CTA und 176 Eigenschaften für CPA, die über textuelle, numerische und Datums-/Zeit-Spalten verteilt sind. Die Tabellen sind in feste Trainings-, Validierungs- und Testmengen aufgeteilt. Die Testmengen sind zudem in Untergruppen unterteilt, die sich auf spezifische Herausforderungen konzentrieren, wie beispielsweise Spalten mit fehlenden Werten oder unterschiedlichen Wertformaten, um eine feinere Vergleichbarkeit der Annotationssysteme zu ermöglichen. Die Bewertung von SOTAB mittels Doduo und TURL zeigt, dass der Benchmark für aktuelle State-of-the-Art-Systeme eine erhebliche Herausforderung darstellt.

SOTAB: Der WDC Schema.org Table Annotation Benchmark | Neueste Forschungsarbeiten | HyperAI