Sudowoodo: Kontrastives selbstüberwachtes Lernen für die vielseitige Datensynthese und -vorbereitung

Maschinelles Lernen (ML) spielt eine zunehmend wichtigere Rolle bei Aufgaben der Datenverwaltung, insbesondere im Bereich der Datenintegration und -vorbereitung (DI&P). Der Erfolg ML-basierter Ansätze beruht jedoch stark auf der Verfügbarkeit großer, hochwertiger gelabelter Datensätze für unterschiedliche Aufgaben. Zudem erfordern die Vielzahl an DI&P-Aufgaben und -Pipelines oft eine maßgeschneiderte Anpassung von ML-Lösungen, was erhebliche Kosten für Modellentwicklung und Experimentierung verursachen kann. Diese Faktoren behindern zwangsläufig die Einführung ML-basierter Ansätze in neue Domänen und Aufgabenbereiche.In diesem Paper stellen wir Sudowoodo vor, einen vielseitig einsetzbaren DI&P-Framework basierend auf kontrastiver Repräsentationslernen. Sudowoodo zeichnet sich durch eine einheitliche, auf Übereinstimmung basierende Problemformulierung aus, die eine breite Palette an DI&P-Aufgaben abdeckt, darunter Entity Matching (EM) in der Datenintegration, Fehlerkorrektur bei der Datenbereinigung, semantische Typerkennung bei der Datenentdeckung und weitere. Durch kontrastives Lernen kann Sudowoodo ähnlichkeitssensible Datenrepräsentationen aus einer großen Korpus von Datenelementen (z. B. Entitäts-Einträgen, Tabellenspalten) lernen, ohne dass dafür Labels erforderlich sind. Die gewonnenen Repräsentationen können anschließend entweder direkt eingesetzt oder mit nur wenigen Labels feinabgestimmt werden, um verschiedene DI&P-Aufgaben zu unterstützen. Unsere Experimente zeigen, dass Sudowoodo auf unterschiedlichen Ebenen der Supervision mehrere state-of-the-art Ergebnisse erzielt und bisherige beste spezialisierte Blocking- oder Matching-Lösungen für EM übertrifft. Zudem erzielt Sudowoodo vielversprechende Ergebnisse bei der Datenbereinigung und der semantischen Typerkennung, was seine Vielseitigkeit in DI&P-Anwendungen unterstreicht.