NSCaching: Einfache und effiziente Negative Sampling für Wissensgraphen-Embedding

Die Einbettung von Wissensgraphen (KG) ist ein grundlegendes Problem in der Forschung zum Datenmining mit vielen praktischen Anwendungen. Sie zielt darauf ab, die Entitäten und Beziehungen im Graphen in einen niedrigdimensionalen Vektorraum zu kodieren, der für nachfolgende Algorithmen verwendet werden kann. Die Negative Sampling, bei der negative Tripel aus nicht beobachteten Daten im Trainingsdatensatz gezogen werden, ist ein wichtiger Schritt bei der Einbettung von Wissensgraphen. Kürzlich wurde das Generative Adversarial Network (GAN) in die Negative Sampling eingeführt. Durch das Ziehen von negativen Tripeln mit hohen Scores vermeiden diese Methoden das Problem des verschwindenden Gradienten und erzielen dadurch bessere Leistungen. Allerdings macht die Verwendung von GAN das ursprüngliche Modell komplexer und schwieriger zu trainieren, wobei Reinforcement Learning unbedingt eingesetzt werden muss.In dieser Arbeit, inspiriert durch die Erkenntnis, dass negative Tripel mit hohen Scores zwar wichtig sind, aber selten vorkommen, schlagen wir vor, sie direkt über einen Cache zu verfolgen. Dabei stellen sich jedoch zwei wichtige Fragen: Wie kann man aus dem Cache ziehen und wie wird der Cache aktualisiert? Wir haben sorgfältig Lösungen entwickelt, die nicht nur effizient sind, sondern auch eine gute Balance zwischen Exploration und Exploitation gewährleisten. Auf diese Weise fungiert unsere Methode als "verdünnte" Version früherer GAN-basierter Methoden, die keine zusätzliche Trainingszeit auf den Einstellung von zusätzlichen Parametern zur Anpassung der vollständigen Verteilung negativer Tripel verschwenden. Ausführliche Experimente zeigen, dass unsere Methode erhebliche Verbesserungen in verschiedenen Modellen zur Einbettung von Wissensgraphen erzielt und die bislang besten Methoden zur negativen Sampling basierend auf GAN übertrifft.注释:- "Wissensgraph" 是 "Knowledge Graph" 的德语翻译。- "Einbettung" 对应于 "embedding",在德语中用于表示将数据映射到向量空间的过程。- "Negative Sampling" 在德语中通常直接使用英语术语,因为它是广泛使用的专业术语。- "Generative Adversarial Network (GAN)" 保留了英语缩写,以确保专业性。- "Reinforcement Learning" 同样保留了英语术语,因为它在德语中也是常用的专业词汇。- "Cache" 一词在德语中也常直接使用英语形式。