Graph InfoClust : Exploiter les informations de nœuds au niveau des clusters pour l'apprentissage non supervisé de représentations de graphes

L'apprentissage non supervisé (ou auto-supervisé) des représentations de graphes est essentiel pour faciliter diverses tâches d'exploration de données sur graphes lorsque la supervision externe est indisponible. Le défi réside dans l'encodage de l'information relative à la structure du graphe ainsi qu'aux attributs associés aux nœuds et aux arêtes dans un espace à faible dimension. La plupart des méthodes non supervisées existantes favorisent des représentations similaires entre des nœuds topologiquement proches. Récemment, il a été démontré que l'exploitation d'informations supplémentaires au niveau du graphe — par exemple, des informations partagées par tous les nœuds — encourage les représentations à prendre en compte les propriétés globales du graphe, ce qui améliore considérablement leur qualité. Toutefois, dans la plupart des graphes, une quantité significative de structure supplémentaire peut être exploitée, par exemple, la tendance des nœuds à appartenir à (plusieurs) clusters représentant des nœuds structuralement similaires. Inspirés par cette observation, nous proposons une méthode d'apprentissage des représentations de graphes appelée Graph InfoClust (GIC), qui vise à capturer en outre le contenu d'information au niveau des clusters. Ces clusters sont calculés à l’aide d’une méthode K-means différentiable et sont optimisés conjointement en maximisant l’information mutuelle entre les nœuds appartenant au même cluster. Cette optimisation permet aux représentations des nœuds de capturer des informations plus riches ainsi que des interactions nodales plus fines, ce qui améliore leur qualité. Des expériences montrent que GIC surpasse les méthodes de pointe dans diverses tâches en aval (classification de nœuds, prédiction de liens, clustering de nœuds), avec une amélioration moyenne de 0,9 % à 6,1 % par rapport à l’approche concurrente la plus performante.