NSCaching : Échantillonnage Négatif Simple et Efficace pour l'Embedding de Graphes de Connaissances

L'embedding de graphes de connaissances (KG) est un problème fondamental dans la recherche en fouille de données, avec de nombreuses applications dans le monde réel. Il vise à encoder les entités et les relations du graphe dans un espace vectoriel de faible dimension, qui peut ensuite être utilisé par des algorithmes ultérieurs. L'échantillonnage négatif, qui consiste à sélectionner des triplets négatifs parmi ceux non observés dans les données d'entraînement, est une étape cruciale dans l'embedding de KG. Récemment, les réseaux adversariaux génératifs (GAN) ont été introduits dans l'échantillonnage négatif. En échantillonnant des triplets négatifs avec des scores élevés, ces méthodes évitent le problème du gradient qui s'annule et obtiennent ainsi de meilleures performances. Cependant, l'utilisation de GAN rend le modèle original plus complexe et difficile à entraîner, nécessitant l'utilisation d'apprentissage par renforcement.Dans cet article, motivés par l'observation que les triplets négatifs avec des scores élevés sont importants mais rares, nous proposons de les suivre directement à l'aide d'un cache. Cependant, la manière dont on échantillonne et met à jour ce cache sont deux questions importantes. Nous avons soigneusement conçu des solutions qui non seulement sont efficaces mais aussi permettent d'atteindre un bon équilibre entre exploration et exploitation. De cette façon, notre méthode agit comme une version « distillée » des méthodes précédentes basées sur les GAN, évitant ainsi de gaspiller du temps d'entraînement sur des paramètres supplémentaires pour ajuster la distribution complète des triplets négatifs.Les expériences approfondies montrent que notre méthode peut apporter une amélioration significative dans divers modèles d'embedding de KG et surpasser les méthodes d'échantillonnage négatif les plus avancées basées sur les GAN.