RDF2Vec: RDF-Graph-Embeddings und ihre Anwendungen

Linked Open Data gilt als wertvolle Quelle für Hintergrundinformationen in vielen Aufgaben des Data Mining und der Informationssuche. Die meisten bestehenden Werkzeuge erfordern jedoch Merkmale in propositionaler Form, also Vektoren nominaler oder numerischer Merkmale, die einer Instanz zugeordnet sind, während Linked Open Data-Quellen grundsätzlich graphbasiert sind. In diesem Paper stellen wir RDF2Vec vor, einen Ansatz, der Sprachmodellierungsverfahren zur unüberwachten Merkmalsextraktion aus Wortsequenzen nutzt und diese an RDF-Graphen anpasst. Wir generieren Sequenzen, indem wir lokale Informationen aus Graph-Unterstrukturen ausnutzen, die mittels Weisfeiler-Lehman-Subtree RDF-Graph-Kernen und Graph-Walks gewonnen werden, und lernen latente numerische Darstellungen von Entitäten in RDF-Graphen. Wir evaluieren unseren Ansatz anhand dreier unterschiedlicher Aufgaben: (i) klassische maschinelle Lernaufgaben, (ii) Entitäten- und Dokumentenmodellierung sowie (iii) content-basierte Empfehlungssysteme. Die Evaluation zeigt, dass die vorgeschlagenen Entitäts-Embeddings bestehende Techniken übertrifft und dass vorgefertigte Merkmalsvektordarstellungen allgemeiner Wissensgraphen wie DBpedia und Wikidata leicht für verschiedene Aufgaben wiederverwendet werden können.