Évaluation des réseaux de neurones sur graphes

Ces dernières années, les réseaux neuronaux sur graphes (GNN) sont devenus l'outil de référence pour l'analyse et l'apprentissage à partir de données structurées en graphes. Ce domaine émergent a connu une croissance considérable de techniques prometteuses, appliquées avec succès en informatique, mathématiques, biologie, physique et chimie. Toutefois, pour qu'un domaine prospère devienne à la fois dominant et fiable, il est essentiel de développer des benchmarks permettant de mesurer de manière quantitative les progrès accomplis. C’est pourquoi, en mars 2020, nous avons lancé un cadre de benchmark qui : i) rassemble une diversité de graphes mathématiques et réels, ii) permet des comparaisons équitables entre modèles sous un même budget de paramètres afin d’identifier les architectures clés, iii) repose sur une infrastructure logicielle open source, facile à utiliser et reproductible, et iv) offre une grande flexibilité aux chercheurs pour expérimenter de nouvelles idées théoriques. À fin décembre 2022, le dépôt GitHub avait atteint 2 000 étoiles et 380 forks, témoignant ainsi de l’utilité du cadre open source proposé, largement adopté par la communauté des GNN. Dans cet article, nous présentons une version mise à jour de notre benchmark, avec une présentation concise des caractéristiques mentionnées ci-dessus, l’ajout d’un nouveau jeu de données moléculaires de taille moyenne, AQSOL, similaire au célèbre ZINC mais avec une cible chimique mesurée dans le monde réel, ainsi que des discussions sur la manière dont ce cadre peut être exploité pour explorer de nouveaux designs de GNN et tirer de nouvelles insights. À titre de preuve de valeur de notre benchmark, nous étudions le cas de l’encodage positionnel des graphes (PE) dans les GNN, introduit avec ce cadre, qui a depuis suscité un intérêt croissant pour le développement de codes positionnels plus puissants dans les Transformers et les GNN, dans un cadre expérimental robuste.