HyperAIHyperAI

Command Palette

Search for a command to run...

Graph-boosted Active Learning für die Multi-Source-Entitätsauflösung

Christian Bizer Anna Primpeli

Zusammenfassung

Überwachte Methoden zur Entitätsauflösung basieren auf gelabelten Datensatzpaaren, um Übereinstimmungsmuster zwischen zwei oder mehreren Datenquellen zu erlernen. Active Learning minimiert den Labeling-Aufwand, indem informative Paare zur Annotation ausgewählt werden. Die bestehenden Active-Learning-Methoden für die Entitätsauflösung zielen alle auf Szenarien mit zwei Quellen ab und ignorieren Signale, die nur in mehrfachquellenbasierten Umgebungen – wie beispielsweise dem Web of Data – existieren. In diesem Artikel stellen wir ALMSER vor, eine graphenbasierte Active-Learning-Methode für die Entitätsauflösung in mehrfachquellenbasierten Szenarien. So weit uns bekannt ist, ist ALMSER die erste auf Active Learning basierende Methode zur Entitätsauflösung, die speziell auf mehrfachquellenbasierte Umgebungen zugeschnitten ist. ALMSER nutzt den reichen Korrespondenzgraphen, der in mehrfachquellenbasierten Szenarien existiert, zur Auswahl informativer Datensatzpaare. Darüber hinaus wird der Korrespondenzgraph genutzt, um ergänzende Trainingsdaten abzuleiten. Wir evaluieren unsere Methode anhand fünf mehrfachquellenbasierter Übereinstimmungsaufgaben mit unterschiedlichen Profilierungsmerkmalen. Die experimentelle Bewertung zeigt, dass die Nutzung von Graphensignalen zu verbesserten Ergebnissen im Vergleich zu Active-Learning-Methoden mit marginbasierten und komiteebasierten Abfragestrategien führt, gemessen an der F1-Score auf allen Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp