Pré-entraînement de réseaux de neurones graphiques sur les molécules par une utilisation du goulot d’étranglement d’information graphique conditionné par des sous-graphes

Cette étude vise à développer un modèle pré-entraîné de Réseau de Neurones Graphiques (GNN) sur des molécules, sans recourir à des annotations humaines ni à des connaissances préalables. Bien que diverses approches aient été proposées pour surmonter les limitations liées à l’acquisition de molécules étiquetées, les méthodes pré-entraînées précédentes reposent encore sur des sous-graphes sémantiques, à savoir les groupes fonctionnels. Se concentrer uniquement sur ces groupes fonctionnels peut néanmoins faire passer inaperçues les différences au niveau du graphe global. Le défi principal consiste à (1) générer des représentations au niveau du graphe bien distinctes et (2) découvrir automatiquement les groupes fonctionnels sans aucune connaissance préalable. Pour relever ce défi, nous proposons une nouvelle méthode, appelée S-CGIB (Subgraph-conditioned Graph Information Bottleneck), pour le pré-entraînement des GNN afin de reconnaître les sous-graphes centraux (les « cores » graphiques) et les sous-graphes significatifs. L'idée principale repose sur le fait que les « cores » graphiques contiennent des informations compressées et suffisantes pour générer des représentations au niveau du graphe bien distinctes, tout en permettant la reconstruction du graphe d'entrée conditionnellement aux sous-graphes significatifs, selon le principe de S-CGIB. Pour identifier les sous-graphes significatifs sans aucune connaissance préalable sur les groupes fonctionnels, nous proposons de générer un ensemble de candidats de groupes fonctionnels, à savoir des réseaux ego, et d’exploiter une interaction basée sur l’attention entre le « core » graphique et ces candidats. Malgré leur identification par apprentissage auto-supervisé, les sous-graphes appris par notre méthode correspondent étroitement aux groupes fonctionnels réels du monde réel. Des expériences étendues sur diverses bases de données moléculaires couvrant plusieurs domaines démontrent l’efficacité supérieure de S-CGIB.