Graph-boosted Active Learning für die Multi-Source-Entitätsauflösung
Überwachte Methoden zur Entitätsauflösung basieren auf gelabelten Datensatzpaaren, um Übereinstimmungsmuster zwischen zwei oder mehreren Datenquellen zu erlernen. Active Learning minimiert den Labeling-Aufwand, indem informative Paare zur Annotation ausgewählt werden. Die bestehenden Active-Learning-Methoden für die Entitätsauflösung zielen alle auf Szenarien mit zwei Quellen ab und ignorieren Signale, die nur in mehrfachquellenbasierten Umgebungen – wie beispielsweise dem Web of Data – existieren. In diesem Artikel stellen wir ALMSER vor, eine graphenbasierte Active-Learning-Methode für die Entitätsauflösung in mehrfachquellenbasierten Szenarien. So weit uns bekannt ist, ist ALMSER die erste auf Active Learning basierende Methode zur Entitätsauflösung, die speziell auf mehrfachquellenbasierte Umgebungen zugeschnitten ist. ALMSER nutzt den reichen Korrespondenzgraphen, der in mehrfachquellenbasierten Szenarien existiert, zur Auswahl informativer Datensatzpaare. Darüber hinaus wird der Korrespondenzgraph genutzt, um ergänzende Trainingsdaten abzuleiten. Wir evaluieren unsere Methode anhand fünf mehrfachquellenbasierter Übereinstimmungsaufgaben mit unterschiedlichen Profilierungsmerkmalen. Die experimentelle Bewertung zeigt, dass die Nutzung von Graphensignalen zu verbesserten Ergebnissen im Vergleich zu Active-Learning-Methoden mit marginbasierten und komiteebasierten Abfragestrategien führt, gemessen an der F1-Score auf allen Aufgaben.