DCoM: Ein Tiefer Spaltenzuweiser für die Erkennung semantischer Datentypen

Die Erkennung semantischer Datentypen ist eine äußerst wichtige Aufgabe in der Datenwissenschaft für automatisierte Datenbereinigung, Schema-Alignment, Datenentdeckung, Normalisierung semantischer Datentypen sowie die Identifizierung sensibler Daten. Bestehende Methoden basieren entweder auf regulären Ausdrücken oder Wörterbuchabgleichen, sind jedoch anfällig gegenüber verschmutzten und bisher unbekannten Daten und beschränken sich auf eine sehr geringe Anzahl semantischer Datentypen. Bestehende maschinelle Lernansätze extrahieren eine große Anzahl handkodierter Merkmale aus den Daten und bauen Modelle wie logistische Regression, Random Forest oder Feedforward-Neuronale Netze zur Erkennung auf. In diesem Artikel stellen wir DCoM vor, eine Sammlung mehrfach eingegebener, auf natürlicher Sprache basierender tiefer neuronaler Netze zur Erkennung semantischer Datentypen. Im Gegensatz zur traditionellen Vorgehensweise, bei der eine große Anzahl von Merkmalen extrahiert wird, übergeben wir den Rohwerten von Spalten (bzw. Instanzen) als Texte direkt dem Modell. Wir trainieren DCoM auf 686.765 Daten-Spalten, die aus der VizNet-Korpus stammen, und berücksichtigen dabei 78 verschiedene semantische Datentypen. DCoM erreicht auf derselben Datensammlung signifikant bessere Ergebnisse als bisherige state-of-the-art-Methoden.