Nouveaux référentiels pour l'apprentissage sur des graphes non homophiles

De nombreuses données structurées en graphe satisfont le principe d'homophilie, ce qui signifie que les nœuds connectés ont tendance à être similaires par rapport à un attribut spécifique. Par conséquent, les jeux de données ubiquitaires utilisés pour les tâches d'apprentissage automatique sur graphe ont généralement été très homophiles, favorisant les méthodes qui exploitent l'homophilie comme biais inductif. Des travaux récents ont souligné cette focalisation particulière, alors que de nouveaux jeux de données non homophiles ont été introduits et des modèles d'apprentissage de représentations de graphe mieux adaptés aux situations à faible homophilie ont été développés. Cependant, ces jeux de données sont petits et mal adaptés pour véritablement tester l'efficacité des nouvelles méthodes dans des contextes non homophiles. Nous présentons une série de jeux de données améliorés de graphe dont les relations entre les étiquettes des nœuds ne satisfont pas le principe d'homophilie. Nous introduisons également une nouvelle mesure de la présence ou de l'absence d'homophilie qui est plus appropriée que les mesures existantes dans différents régimes. Nous évaluons une gamme de méthodes simples et de réseaux neuronaux graphiques sur nos jeux de données proposés, tirant ainsi de nouvelles conclusions pour des recherches ultérieures. Les données et les codes peuvent être trouvés à l'adresse suivante : https://github.com/CUAI/Non-Homophily-Benchmarks.