Mehraufgaben-Vortrainiertes Sprachmodell für die Vollständigkeit von Semantischen Netzwerken

Semantische Netze, wie beispielsweise Wissensgraphen, können Wissen mithilfe der Graphstruktur repräsentieren. Obwohl Wissensgraphen in der natürlichen Sprachverarbeitung vielversprechende Potenziale zeigen, leiden sie unter Unvollständigkeit. Diese Arbeit konzentriert sich auf die Vervollständigung von Wissensgraphen durch die Vorhersage von Beziehungen zwischen Entitäten, eine grundlegende, jedoch entscheidende Aufgabe. Semantische Matching stellt eine vielversprechende Lösung dar, da es mit bisher unbekannten Entitäten umgehen kann, mit denen Methoden basierend auf translationsbasierten Distanzen Schwierigkeiten haben. Um jedoch Leistungen zu erzielen, die mit solchen translationsbasierten Methoden konkurrieren können, benötigen semantikbasierte Ansätze große Datensätze für das Training – diese sind jedoch in der Praxis typischerweise nicht verfügbar. Daher nutzen wir Sprachmodelle und stellen eine neuartige Architektur für Wissensgraphen namens LP-BERT vor, die zwei Hauptphasen umfasst: Multitask-Vortraining und Feinabstimmung des Wissensgraphen. Im Vortraining werden drei Aufgaben eingesetzt, um das Modell zu trainieren, Beziehungen zwischen Tripeln durch die Vorhersage von Entitäten oder Relationen zu lernen. Im Feinabstimmungsphase, inspiriert durch kontrastives Lernen, entwerfen wir eine negative Stichprobenauswahl im Tripelstil innerhalb eines Batchs, die den Anteil an negativen Beispielen erheblich erhöht, während die Trainingszeit nahezu unverändert bleibt. Darüber hinaus schlagen wir eine neue Methode zur Datenvervollständigung vor, die die inverse Beziehung von Tripeln nutzt, um die Leistungsfähigkeit und Robustheit des Modells zu verbessern. Um die Wirksamkeit unseres Ansatzes zu demonstrieren, führen wir umfangreiche Experimente auf drei etablierten Datensätzen durch: WN18RR, FB15k-237 und UMLS. Die experimentellen Ergebnisse belegen die Überlegenheit unseres Verfahrens, und unsere Methode erreicht state-of-the-art Ergebnisse auf den Datensätzen WN18RR und FB15k-237. Insbesondere wird der Hits@10-Wert auf dem WN18RR-Datensatz um 5 Prozentpunkte gegenüber dem vorherigen Stand der Technik verbessert, während auf dem UMLS-Datensatz ein Wert von 100 Prozent erreicht wird.