il y a 11 jours

NodePiece : Représentations Composantes et Économiques en Paramètres pour les Grands Graphes de Connaissances

Mikhail Galkin, Etienne Denis, Jiapeng Wu, William L. Hamilton

Résumé

Les algorithmes classiques d'apprentissage de représentations pour les graphes de connaissances (KG) associent à chaque entité un vecteur d'embedding unique. Ce type de recherche linéaire simple entraîne une croissance linéaire de la consommation mémoire nécessaire au stockage de la matrice d'embedding, ainsi qu'un coût computationnel élevé lors de l'exploitation de KG réels. En s'inspirant de la tokenisation par sous-mots couramment utilisée en traitement du langage naturel (NLP), nous explorons un paysage de stratégies d'embedding de nœuds plus efficaces en termes de paramètres, pouvant présenter une exigence mémoire sous-linéaire. À cet effet, nous proposons NodePiece, une approche fondée sur des nœuds-ancres pour apprendre un vocabulaire d'entités de taille fixe. Dans NodePiece, un vocabulaire composé d'unités sous-mots/sous-entités est construit à partir de nœuds-ancres dans un graphe dont les types de relations sont connus. Grâce à ce vocabulaire de taille fixe, il devient possible d'encoder et d'encoder en embedding tout nœud, y compris ceux jamais observés durant l'entraînement. Les expériences montrent que NodePiece obtient des performances compétitives sur des tâches telles que la classification de nœuds, la prédiction de liens et la prédiction de relations, tout en conservant moins de 10 % des nœuds explicites du graphe comme nœuds-ancres, et en généralement réduisant de 10 fois le nombre de paramètres. En somme, nous démontrons qu'un modèle basé sur NodePiece surpasser les modèles plats existants sur un grand graphe OGB WikiKG2, tout en utilisant 70 fois moins de paramètres.