ChemRL-GEM : Apprentissage représentation moléculaire amélioré par la géométrie pour la prédiction de propriétés

L’apprentissage efficace de représentations moléculaires est d’une importance capitale pour faciliter la prédiction des propriétés moléculaires, une tâche fondamentale dans les secteurs pharmaceutique et des matériaux. Les récents progrès des réseaux de neurones graphiques (GNN) ont montré un grand potentiel dans l’application des GNN à l’apprentissage de représentations moléculaires. Par ailleurs, quelques études récentes ont également démontré des applications réussies de méthodes d’apprentissage auto-supervisé pour pré-entraîner les GNN, afin de surmonter le problème du manque de données étiquetées. Toutefois, les GNN existants ainsi que les stratégies de pré-entraînement traitent généralement les molécules comme des données graphiques topologiques, sans exploiter pleinement les informations géométriques moléculaires. Or, la structure tridimensionnelle (3D) d’une molécule, également appelée géométrie moléculaire, constitue l’un des facteurs les plus critiques déterminant ses propriétés physiques, chimiques et biologiques. À cet effet, nous proposons une nouvelle méthode d’apprentissage de représentations moléculaires améliorée par la géométrie, nommée GEM (Geometry Enhanced Molecular representation learning), intégrée dans le cadre de l’apprentissage des représentations chimiques (ChemRL). Tout d’abord, nous concevons une architecture de GNN basée sur la géométrie, capable de modéliser simultanément les atomes, les liaisons et les angles de liaison au sein d’une molécule. Plus précisément, nous introduisons deux graphes distincts pour chaque molécule : le premier encode les relations entre atomes et liaisons, tandis que le second encode les relations entre angles de liaison. En outre, à partir de cette architecture GNN conçue, nous proposons plusieurs nouvelles stratégies d’apprentissage auto-supervisé au niveau géométrique, permettant d’acquérir des connaissances spatiales à partir des structures 3D locales et globales des molécules. Nous comparons ChemRL-GEM à diverses méthodes de pointe (SOTA) sur différentes bases de données moléculaires, et démontrons que ChemRL-GEM surpasse significativement toutes les méthodes de référence, tant dans les tâches de régression que de classification. Par exemple, les résultats expérimentaux montrent une amélioration moyenne de 8,8 % par rapport aux méthodes de pointe sur les tâches de régression, mettant ainsi en évidence l’efficacité supérieure de la méthode proposée.