HyperAIHyperAI

Command Palette

Search for a command to run...

DCoM: Ein Tiefer Spaltenzuweiser für die Erkennung semantischer Datentypen

Subhadip Maji Swapna Sourav Rout Sudeep Choudhary

Zusammenfassung

Die Erkennung semantischer Datentypen ist eine äußerst wichtige Aufgabe in der Datenwissenschaft für automatisierte Datenbereinigung, Schema-Alignment, Datenentdeckung, Normalisierung semantischer Datentypen sowie die Identifizierung sensibler Daten. Bestehende Methoden basieren entweder auf regulären Ausdrücken oder Wörterbuchabgleichen, sind jedoch anfällig gegenüber verschmutzten und bisher unbekannten Daten und beschränken sich auf eine sehr geringe Anzahl semantischer Datentypen. Bestehende maschinelle Lernansätze extrahieren eine große Anzahl handkodierter Merkmale aus den Daten und bauen Modelle wie logistische Regression, Random Forest oder Feedforward-Neuronale Netze zur Erkennung auf. In diesem Artikel stellen wir DCoM vor, eine Sammlung mehrfach eingegebener, auf natürlicher Sprache basierender tiefer neuronaler Netze zur Erkennung semantischer Datentypen. Im Gegensatz zur traditionellen Vorgehensweise, bei der eine große Anzahl von Merkmalen extrahiert wird, übergeben wir den Rohwerten von Spalten (bzw. Instanzen) als Texte direkt dem Modell. Wir trainieren DCoM auf 686.765 Daten-Spalten, die aus der VizNet-Korpus stammen, und berücksichtigen dabei 78 verschiedene semantische Datentypen. DCoM erreicht auf derselben Datensammlung signifikant bessere Ergebnisse als bisherige state-of-the-art-Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp