O-GNN : Intégration de priori cycliques dans la modélisation moléculaire

Les composés cycliques contenant au moins un cycle jouent un rôle crucial dans la conception de médicaments. Malgré les récents succès des modèles de simulation moléculaire basés sur les réseaux de neurones à graphes (GNN), très peu de modèles prennent explicitement en compte la présence de cycles dans les molécules, ce qui limite leur expressivité. Dans ce travail, nous proposons une nouvelle variante de GNN, appelée O-GNN (ring-enhanced GNN), qui modélise explicitement les cycles, en plus des atomes et des liaisons dans les composés. Dans O-GNN, chaque cycle est représenté par un vecteur latent qui contribue à la représentation globale de la molécule et est itérativement mis à jour à partir des représentations des atomes et des liaisons. Une analyse théorique montre que O-GNN est capable de distinguer deux sous-graphes isomorphes situés sur des cycles différents en utilisant uniquement une couche, tandis que les réseaux de neurones convolutionnels graphiques classiques nécessitent plusieurs couches pour parvenir à cette distinction, démontrant ainsi une expressivité supérieure. Des expériences sur des jeux de données publics montrent que O-GNN atteint de très bons résultats. En particulier, il obtient un résultat de validation de pointe sur le benchmark PCQM4Mv1 (dépassant la solution précédente championne du KDDCup) ainsi qu’une performance remarquable sur la tâche de prédiction des interactions médicament-médicament sur DrugBank. De plus, O-GNN surpasse significativement des modèles de référence performants (qui ne modélisent pas les cycles) sur les tâches de prédiction des propriétés moléculaires et de prédiction de réaction inverse.