TorchicTab: Semantische Tabellenannotation mit Wikidata und Sprachmodellen

Eine Fülle von Tabellendaten existiert und wird von einer Vielzahl von Anwendungen genutzt. Dennoch fehlt einem großen Teil dieser Daten die semantische Information, die notwendig ist, damit Benutzer und Maschinen sie korrekt verstehen können. Dieser Mangel an semantischer Tabellenverständnis behindert deren Nutzung in Datenanalyse-Pipelines. Lösungen zur semantischen Interpretation von Tabellen existieren zwar, sind jedoch auf spezifische Annotierungsaufgaben und Tabellentypen fokussiert und beruhen auf großen Wissensbasen, was ihre Wiederverwendbarkeit in realen Anwendungsszenarien erschwert. Daher werden robuster funktionierende Systeme benötigt, die präzisere Anmerkungen erzeugen und sich an unterschiedliche Tabellentypen anpassen lassen. Der Semantic Web Challenge on Tabular Data to Knowledge Graph Matching (SemTab) wurde eingeführt, um semantische Tabelleninterpretationssysteme zu benchmarken, indem sie anhand vielfältiger Datensätze und Aufgaben evaluiert werden. In diesem Artikel stellen wir TorchicTab vor, ein vielseitiges System zur semantischen Tabelleninterpretation, das Tabellen mit unterschiedlichen Strukturen annotieren kann, entweder durch Nutzung eines externen Wissensgraphen wie Wikidata oder durch das Trainieren mit annotierten Tabellen, die vordefinierte Begriffe enthalten. Wir evaluieren unser vorgeschlagenes System anhand der verschiedenen Annotierungsaufgaben des SemTab-Challenges. Die Ergebnisse zeigen, dass unser System genaue Anmerkungen für unterschiedliche Aufgaben über eine Vielzahl von Datensätzen hinweg liefern kann.