Sato: Kontextbasierte semantische Typenerkennung in Tabellen

Die Erkennung semantischer Datentypen in Spalten relationaler Tabellen ist für verschiedene Aufgaben der Datenbearbeitung und Informationsabrufung wie Datenreinigung, Schemamatching, Datendiscovery und semantisches Suchen von großer Bedeutung. Bestehende Erkennungsansätze leisten jedoch entweder mangelhafte Leistungen bei unsauberen Daten, unterstützen nur eine begrenzte Anzahl von semantischen Typen, berücksichtigen den Tabellenkontext der Spalten nicht oder hängen von großen Stichproben für Trainingsdaten ab. Wir stellen Sato vor, ein hybrides maschinelles Lernmodell zur automatischen Erkennung der semantischen Typen von Spalten in Tabellen, das Signale sowohl aus dem Kontext als auch aus den Spaltenwerten nutzt. Sato kombiniert ein tiefes Lernmodell, das auf einem groß angelegten Tabellenkorpus trainiert wurde, mit Themenmodellierung und strukturierten Vorhersagen, um gewichtete und makroverchnittene F1-Werte von 0,925 und 0,735 zu erreichen. Diese Werte übertreffen die bisherige Standarte der Technik erheblich. Wir analysieren die Gesamt- und typspezifische Leistung von Sato detailliert und diskutieren dabei, wie einzelne Modellkomponenten sowie Merkmalskategorien zu seiner Leistung beitragen.