HyperAIHyperAI
vor 18 Tagen

Profiling von Entity-Matching-Benchmark-Aufgaben

{Christian Bizer, Anna Primpeli}
Abstract

Die Entitätenübereinstimmung ist eine zentrale Aufgabe im Bereich der Datenintegration, die bereits über Jahrzehnte hinweg intensiv erforscht wurde. In dieser Zeit wurden eine Vielzahl von Benchmark-Aufgaben entwickelt, um Methoden zur Entitätenübereinstimmung zu evaluieren. In diesem Ressourcenpapier werden systematisch 21 Benchmark-Aufgaben zur Entitätenübereinstimmung ergänzt, charakterisiert und miteinander verglichen. Um die spezifischen Herausforderungen verschiedener Aufgaben besser verstehen zu können, definieren wir einen Satz von Profilierungsdimensionen, die zentrale Aspekte der Übereinstimmungsaufgaben erfassen. Anhand dieser Dimensionen gruppieren wir die Benchmark-Aufgaben nach ähnlichen Eigenschaften. Anschließend bewerten wir die Schwierigkeit der Aufgaben innerhalb jeder Gruppe, indem wir Baseline-Evaluationsergebnisse unter Verwendung standardisierter Merkmalsingenieurtechniken sowie zweier gängiger Klassifikationsmethoden berechnen. Um die exakte Reproduzierbarkeit von Evaluierungsergebnissen zu gewährleisten, müssen Matching-Aufgaben jeweils genau definierte Mengen an Übereinstimmungs- und Nicht-Übereinstimmungspaaren sowie feste Aufteilungen in Entwicklung- und Testdatensätze enthalten. Da dies für einige weit verbreitete Benchmark-Aufgaben nicht der Fall ist, ergänzen wir diese Aufgaben um fest definierte Mengen an Nicht-Übereinstimmungspaaren sowie feste Aufteilungen und stellen die resultierenden Entwicklung- und Testsets zur öffentlichen Download zur Verfügung. Durch die systematische Profilierung und Ergänzung der Benchmark-Aufgaben unterstützen wir Forscher dabei, herausfordernde und vielfältige Aufgaben auszuwählen sowie Matching-Systeme auf klar definierten Grundlagen zu vergleichen.