Diffusion-Jump GNNs : Homophilie via des filtres de métrique apprenables

Les réseaux de neurones graphiques d’ordre élevé (HO-GNNs) ont été développés pour inférer des espaces latents cohérents dans le régime hétérophile, où la distribution des étiquettes n’est pas corrélée à la structure du graphe. Toutefois, la plupart des HO-GNNs existants sont basés sur les « sauts » (hop-based), c’est-à-dire qu’ils s’appuient sur les puissances de la matrice de transition. En conséquence, ces architectures ne réagissent pas pleinement à la perte de classification, et les filtres structurels qu’elles produisent ont des supports statiques. Autrement dit, ni les supports des filtres ni leurs coefficients ne peuvent être appris directement par ces réseaux ; ils sont contraints à apprendre uniquement des combinaisons de filtres préexistants. Pour remédier à ces limites, nous proposons Diffusion-jump GNNs, une méthode fondée sur les distances de diffusion asymptotiques et opérant par « sauts ». Un mécanisme de pompage de diffusion génère des distances pariétales dont les projections déterminent à la fois le support et les coefficients de chaque filtre structurel. Ces filtres sont appelés « sauts » car ils explorent une large gamme d’échelles afin de repérer des liens entre des nœuds isolés portant la même étiquette. En réalité, tout le processus est contrôlé par la perte de classification : à la fois les sauts et les distances de diffusion réagissent aux erreurs de classification (c’est-à-dire qu’ils sont apprenables). L’hétérophilie, c’est-à-dire le processus d’apprentissage d’espaces latents par morceaux lisses dans le régime hétérophile, est formulée comme un problème de Dirichlet : les étiquettes connues déterminent les nœuds frontières, et le pompage de diffusion garantit une déviation minimale du regroupement semi-supervisé par rapport à un regroupement canonique non supervisé. Ce mécanisme déclenche ainsi la mise à jour des distances de diffusion, et par conséquent des sauts, afin de minimiser l’erreur de classification. La formulation de type Dirichlet présente plusieurs avantages : elle permet de définir une nouvelle mesure d’hétérophilie structurelle, au-delà de l’hétérophilie d’arête ; elle permet également d’explorer des liens avec les distances de diffusion apprenables, les marches aléatoires absorbantes et la diffusion stochastique.