HyperAIHyperAI
vor 17 Tagen

WDC Products: Ein mehrdimensionaler Benchmark für Entitätsübereinstimmung

Ralph Peeters, Reng Chiz Der, Christian Bizer
WDC Products: Ein mehrdimensionaler Benchmark für Entitätsübereinstimmung
Abstract

Die Schwierigkeit einer Entitäten-Übereinstimmungsaufgabe hängt von einer Kombination mehrerer Faktoren ab, wie beispielsweise der Anzahl von Randfall-Paaren, dem Anteil an Entitäten im Testset, die während des Trainings nicht gesehen wurden, sowie der Größe der Entwicklungsdatenmenge. Aktuelle Benchmarks für die Entitäten-Übereinstimmung repräsentieren in der Regel einzelne Punkte innerhalb solcher Dimensionen oder ermöglichen die Bewertung von Übereinstimmungsmethoden entlang lediglich einer einzigen Dimension, beispielsweise der Menge an Trainingsdaten. In diesem Artikel präsentieren wir WDC Products, einen Benchmark für die Entitäten-Übereinstimmung, der eine systematische Bewertung von Übereinstimmungssystemen entlang einer Kombination dreier Dimensionen ermöglicht und dabei auf realen Datensätzen basiert. Die drei Dimensionen sind (i) die Menge an Randfällen, (ii) die Generalisierung auf nicht gesehene Entitäten und (iii) die Größe der Entwicklungsdatenmenge (Trainings- plus Validierungsdaten). Die Generalisierung auf nicht gesehene Entitäten ist eine Dimension, die bisher in keinem der bestehenden englischsprachigen Benchmarks abgedeckt wurde, obwohl sie entscheidend für die Bewertung der Robustheit von Entitäten-Übereinstimmungssystemen ist. Anstatt zu lernen, wie man Entitätenpaare zuordnet, kann die Entitäten-Übereinstimmung auch als Mehrklassen-Klassifikationsaufgabe formuliert werden, bei der der Matcher einzelne Entitäten erkennen muss. WDC Products ist der erste Benchmark, der sowohl eine Paarweise als auch eine Mehrklassen-Formulierung derselben Aufgabe bereitstellt. Wir evaluieren WDC Products mithilfe mehrerer state-of-the-art-Übereinstimmungssysteme, darunter Ditto, HierGAT und R-SupCon. Die Evaluation zeigt, dass alle Übereinstimmungssysteme in unterschiedlichem Maße Schwierigkeiten mit nicht gesehenen Entitäten haben. Zudem zeigt sich, dass für die Entitäten-Übereinstimmung kontrastives Lernen im Vergleich zu Cross-Encodern dateneffizienter im Training ist.

WDC Products: Ein mehrdimensionaler Benchmark für Entitätsübereinstimmung | Neueste Forschungsarbeiten | HyperAI