vor 11 Tagen

Multilinguale Wissensgraphen-Vervollständigung mit gemeinsamer Relationen- und Entitätsausrichtung

Harkanwar Singh, Prachi Jain, Mausam, Soumen Chakrabarti

Abstract

Wissensgraph-Vervollständigung (Knowledge Graph Completion, KGC) zielt darauf ab, fehlende Fakten in unvollständigen Wissensgraphen vorherzusagen. Fast alle bestehenden KGC-Forschungsarbeiten sind auf jeweils einen einzigen Wissensgraphen und eine einzige Sprache beschränkt. In der Praxis pflegen jedoch Sprecher verschiedener Sprachen jeweils getrennte Wissensgraphen in ihrer eigenen Sprache, und keiner dieser Graphen wird als vollständig erwartet. Zudem weisen gemeinsame Entitäten oder Relationen in diesen Graphen unterschiedliche Oberflächenformen und IDs auf, was zu einer ID-Proliferation führt. Die Aufgaben der Entitätsausrichtung (Entity Alignment, EA) und der Relationsausrichtung (Relation Alignment, RA) adressieren dieses Problem, indem sie Paare von Entitäts- (bzw. Relations-)IDs in verschiedenen Wissensgraphen identifizieren, die dieselbe Entität (bzw. Relation) repräsentieren. Diese Ausrichtung kann zudem die Vorhersage fehlender Fakten unterstützen, da Wissen aus einem Graphen zur Vervollständigung eines anderen Graphen beitragen kann. Umgekehrt können hochzuverlässige Vorhersagen aus der KGC-Aufgabe wertvolle Informationen für die Ausrichtungsaufgaben liefern. In Anbetracht dessen untersuchen wir die neuartige Aufgabe des gemeinsamen Trainings von multilingualen KGC-, EA- und RA-Modellen. Wir stellen ALIGNKGC vor, das einige Seed-Ausrichtungen nutzt, um gleichzeitig alle drei Verlustfunktionen – KGC, EA und RA – zu optimieren. Ein zentraler Bestandteil von ALIGNKGC ist ein auf Embeddings basierender, weicher Ansatz asymmetrischer Überlappung, der auf den (Subjekt, Objekt)-Mengensignaturen von Relationen definiert ist und dabei hilft, Relationen besser vorherzusagen, die einer anderen Relation äquivalent sind oder aus ihr impliziert werden. Umfangreiche Experimente mit DBpedia in fünf Sprachen belegen die Vorteile des gemeinsamen Trainings für alle drei Aufgaben. ALIGNKGC erreicht gegenüber einem starken, state-of-the-art-Modell für einzelne KGC-Graphen eine Verbesserung von 10 bis 32 MRR pro monolingualen Wissensgraph. Zudem erzielt ALIGNKGC signifikante Verbesserungen bei den EA- und RA-Aufgaben im Vergleich zu einem einfachen KGC-Modell, das auf einem kombinierten Wissensgraphen ohne vorherige Ausrichtung basiert – was die Bedeutung des gemeinsamen Trainings für diese Aufgaben unterstreicht.