HyperAIHyperAI

Command Palette

Search for a command to run...

Sato: Kontextbasierte semantische Typenerkennung in Tabellen

Dan Zhang Yoshihiko Suhara Jinfeng Li Madelon Hulsebos Çağatay Demiralp Wang-Chiew Tan

Zusammenfassung

Die Erkennung semantischer Datentypen in Spalten relationaler Tabellen ist für verschiedene Aufgaben der Datenbearbeitung und Informationsabrufung wie Datenreinigung, Schemamatching, Datendiscovery und semantisches Suchen von großer Bedeutung. Bestehende Erkennungsansätze leisten jedoch entweder mangelhafte Leistungen bei unsauberen Daten, unterstützen nur eine begrenzte Anzahl von semantischen Typen, berücksichtigen den Tabellenkontext der Spalten nicht oder hängen von großen Stichproben für Trainingsdaten ab. Wir stellen Sato vor, ein hybrides maschinelles Lernmodell zur automatischen Erkennung der semantischen Typen von Spalten in Tabellen, das Signale sowohl aus dem Kontext als auch aus den Spaltenwerten nutzt. Sato kombiniert ein tiefes Lernmodell, das auf einem groß angelegten Tabellenkorpus trainiert wurde, mit Themenmodellierung und strukturierten Vorhersagen, um gewichtete und makroverchnittene F1-Werte von 0,925 und 0,735 zu erreichen. Diese Werte übertreffen die bisherige Standarte der Technik erheblich. Wir analysieren die Gesamt- und typspezifische Leistung von Sato detailliert und diskutieren dabei, wie einzelne Modellkomponenten sowie Merkmalskategorien zu seiner Leistung beitragen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sato: Kontextbasierte semantische Typenerkennung in Tabellen | Paper | HyperAI