HyperAIHyperAI

Command Palette

Search for a command to run...

Sudowoodo: Kontrastives selbstüberwachtes Lernen für die vielseitige Datensynthese und -vorbereitung

Runhui Wang Yuliang Li Jin Wang

Zusammenfassung

Maschinelles Lernen (ML) spielt eine zunehmend wichtigere Rolle bei Aufgaben der Datenverwaltung, insbesondere im Bereich der Datenintegration und -vorbereitung (DI&P). Der Erfolg ML-basierter Ansätze beruht jedoch stark auf der Verfügbarkeit großer, hochwertiger gelabelter Datensätze für unterschiedliche Aufgaben. Zudem erfordern die Vielzahl an DI&P-Aufgaben und -Pipelines oft eine maßgeschneiderte Anpassung von ML-Lösungen, was erhebliche Kosten für Modellentwicklung und Experimentierung verursachen kann. Diese Faktoren behindern zwangsläufig die Einführung ML-basierter Ansätze in neue Domänen und Aufgabenbereiche.In diesem Paper stellen wir Sudowoodo vor, einen vielseitig einsetzbaren DI&P-Framework basierend auf kontrastiver Repräsentationslernen. Sudowoodo zeichnet sich durch eine einheitliche, auf Übereinstimmung basierende Problemformulierung aus, die eine breite Palette an DI&P-Aufgaben abdeckt, darunter Entity Matching (EM) in der Datenintegration, Fehlerkorrektur bei der Datenbereinigung, semantische Typerkennung bei der Datenentdeckung und weitere. Durch kontrastives Lernen kann Sudowoodo ähnlichkeitssensible Datenrepräsentationen aus einer großen Korpus von Datenelementen (z. B. Entitäts-Einträgen, Tabellenspalten) lernen, ohne dass dafür Labels erforderlich sind. Die gewonnenen Repräsentationen können anschließend entweder direkt eingesetzt oder mit nur wenigen Labels feinabgestimmt werden, um verschiedene DI&P-Aufgaben zu unterstützen. Unsere Experimente zeigen, dass Sudowoodo auf unterschiedlichen Ebenen der Supervision mehrere state-of-the-art Ergebnisse erzielt und bisherige beste spezialisierte Blocking- oder Matching-Lösungen für EM übertrifft. Zudem erzielt Sudowoodo vielversprechende Ergebnisse bei der Datenbereinigung und der semantischen Typerkennung, was seine Vielseitigkeit in DI&P-Anwendungen unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sudowoodo: Kontrastives selbstüberwachtes Lernen für die vielseitige Datensynthese und -vorbereitung | Paper | HyperAI