ClusterEA: Skalierbare Entitätsausrichtung mit stochastischem Training und normalisierten Minibatch-Ähnlichkeiten

Entitätsausrichtung (EA) hat das Ziel, äquivalente Entitäten in verschiedenen Wissensgraphen (KGs) zu finden. In den letzten Jahren haben embeddings-basierte Ansätze die EA-Aufgabe dominiert. Diese Methoden stoßen jedoch auf Probleme, die aus den geometrischen Eigenschaften von Embeddings stammen, wie z.B. Hubness und Isolation. Um diese geometrischen Probleme zu lösen, wurden viele Normalisierungsansätze für EA angewendet. Allerdings erschwert die wachsende Größenordnung der KGs es für EA-Modelle, die Normalisierungsprozesse zu verwenden, was ihre Anwendung in realen Szenarien einschränkt. Um dieser Herausforderung zu begegnen, präsentieren wir ClusterEA, einen generellen Framework, der es ermöglicht, EA-Modelle zu skalieren und ihre Ergebnisse durch die Anwendung von Normalisierungsmethoden auf Minibatches mit einer hohen Rate an äquivalenten Entitäten zu verbessern. ClusterEA umfasst drei Komponenten zur Ausrichtung von Entitäten zwischen großen Wissensgraphen: stochastisches Training, ClusterSampler und SparseFusion. Zunächst wird ein groß angelegtes Siameses GNN in einem stochastischen Verfahren für EA trainiert, um Entitäts-Embeddings zu erzeugen. Basierend auf diesen Embeddings wird eine neuartige ClusterSampler-Strategie vorgeschlagen, um Minibatches mit hoher Überlappung zu selektieren. Schließlich integriert ClusterEA SparseFusion, das lokale und globale Ähnlichkeiten normalisiert und alle Ähnlichkeitsmatrizen fusioniert, um die endgültige Ähnlichkeitsmatrix zu erhalten. Ausführliche Experimente mit realen Datensätzen auf EA-Benchmarks geben Einblicke in den vorgeschlagenen Framework und deuten darauf hin, dass es im Vergleich zum aktuellen Stand der Technik bei skalierbaren EA-Frameworks bis zu 8-mal bessere Ergebnisse in Bezug auf Hits@1 erzielen kann.