RelDiff: Verbesserung der Relationendarstellungen in Wissensgraphen für die Sensitivitätsklassifikation

Die Beziehungen zwischen Entitäten können ein zuverlässiger Indikator für die Klassifizierung sensibler Informationen, wie beispielsweise geschäftlich sensibler Daten, sein. So kann die Relation „Person-IsDirectorOf-Unternehmen“ darauf hinweisen, ob das Gehalt einer Person als sensible personenbezogene Information zu klassifizieren ist. Darstellungen solcher Relationen werden häufig mithilfe eines Wissensgraphen erlernt, um Embeddings für Relationstypen zu generieren, die über verschiedene Entitätenpaare hinweg verallgemeinert werden. Jedoch entspricht ein Relationstyp je nach den beteiligten Entitäten möglicherweise nicht notwendigerweise einer Sensibilität. Daher sind verallgemeinerte Relationsembeddings typischerweise unzureichend für die Klassifizierung sensibler Informationen. In dieser Arbeit schlagen wir eine neuartige Methode zur Darstellung von Entitäten und Relationen innerhalb eines einzigen Embeddings vor, um die Beziehung zwischen den Entitäten besser erfassen zu können. Zudem zeigen wir, dass unser vorgeschlagener Ansatz der Entity-Relation-Entity-Embedding die Effektivität der Sensitivitätsklassifizierung signifikant verbessert (McNemar-Test, p < 0,05), im Vergleich zu Klassifizierungsansätzen, die auf Relationsembeddings aus der Literatur basieren (0,426 F1 gegenüber 0,413 F1).