DREIFLUSS: Ein minimalistischer Ansatz für die Tabellenübereinstimmung

Diese Arbeit stellt DREIFLUSS vor, einen innovativen und minimalistischen Ansatz, der darauf abzielt, die Aufgaben der Spalten-Typ-Annotation (Column Type Annotation, CTA) und der Spalten-Eigenschafts-Annotation (Column Property Annotation, CPA) im SemTab-Wettbewerb zu lösen. DREIFLUSS nutzt effizient semantische Informationen aus etablierten Wissensgraphen, nämlich DBpedia und Schema.org, um den Annotierungsprozess zu verbessern. Experimentelle Ergebnisse belegen die überlegene Leistung von Logistik-Regression-Modellen, die mittels DREIFLUSS trainiert wurden, was präzise Spalten-Typ-Annotationen sowie bedeutungsvolle Beziehungsvorhersagen ermöglicht. Die Ergebnisse unterstreichen die Bedeutung einer geeigneten Stichprobentechnik beim Modelltraining und zeigen, wie dies die Genauigkeit und Effizienz der Tabellenübereinstimmung erhöht. Diese Forschung eröffnet einen vielversprechenden Weg zur Verbesserung von Tabellenübereinstimmungstechniken und betont die praktischen Implikationen von DREIFLUSS für Aufgaben der Datenintegration und Wissensentdeckung.