JenTab trifft auf die neuen Herausforderungen von SemTab 2021

Obwohl Tabellen eine reiche Quelle strukturierter Information darstellen, wird ihre automatisierte Nutzung oft durch die inhärente Mehrdeutigkeit behindert, die in ihnen enthalten ist. Probleme reichen von einfachen Tippfehlern und inkonsistenten Benennungskonventionen bis hin zur Homonymie von Werten und stellen erhebliche Hindernisse für die Nutzung dieses Wissensquellen dar. Obwohl das Semantic Web viele dieser Herausforderungen abmildern kann, bleibt der eigentliche Annotierungsprozess herausfordernd. Um neue Ideen zu fördern und bestehende Ansätze zu verbessern, veranstaltet der Semantic Web Challenge auf der Übereinstimmung von tabellarischen Daten mit Wissensgraphen (SemTab) seit 2019 jährlich Wettbewerbe, bei denen Systeme ihre aktuellen Fähigkeiten unter Beweis stellen können. Datensätze unterschiedlicher Herkunft und Eigenschaften verdeutlichen die Vielfalt der in diesem Bereich auftretenden Herausforderungen. In diesem Paper berichten wir über die Entwicklung unseres Systems „JenTab“ im Rahmen von SemTab2021. Wir haben die Systemarchitektur neu entworfen, einzelne Module optimiert und verschiedene Pipelines entwickelt, um spezifischen Herausforderungen im Verlauf der Challenge gezielt zu begegnen. JenTab gehört zu den Top-5-Systemen in den ersten beiden Runden von SemTab2021. Die Ergebnisse belegen die Flexibilität von JenTab sowie seine Fähigkeit, sich rasch neuen Herausforderungen anzupassen.