Verwendung von Paarweiser Vorkommensinformationen zur Verbesserung der Wissensgraphen-Vervollständigung auf großskaligen Datensätzen

Bilineare Modelle wie DistMult und ComplEx sind wirksame Methoden zur Vervollständigung von Wissensgraphen (Knowledge Graphs, KG). Allerdings erfordern sie große Batch-Größen, was bei der Trainierung auf großen Datensätzen aufgrund von Speicherbeschränkungen zu einer Leistungsbremse wird. In diesem Paper nutzen wir die Häufigkeiten von Entity-Relation-Paaren im Datensatz, um ein gemeinsames Lernmodell zu konstruieren und die Qualität der während des Trainings generierten negativen Beispiele zu verbessern. Wir zeigen an drei Standarddatensätzen, dass die Kombination dieser beiden Techniken eine signifikante Leistungssteigerung bewirkt, insbesondere dann, wenn die Batch-Größe und die Anzahl der generierten negativen Beispiele im Vergleich zur Gesamtgröße des Datensatzes gering sind. Anschließend wenden wir unsere Techniken auf einen Datensatz mit 2 Millionen Entitäten an und demonstrieren, dass unser Modell die Baseline um 2,8 Prozentpunkte in Hits@1 übertrifft.