Un nouveau cadre d'apprentissage automatique génère des molécules 3D réalistes et facilement synthétisables
Dans le domaine de la découverte de médicaments, les modèles de conception moléculaire génératifs ont permis d'élargir considérablement l'espace chimique disponible aux chercheurs, facilitant ainsi l'exploration rapide de nouveaux composés. Cependant, un défi majeur persiste : de nombreux composés générés par l'intelligence artificielle sont difficiles ou impossibles à synthétiser en laboratoire, ce qui limite leur utilité pratique dans le développement pharmaceutique et chimique. Les méthodes basées sur des modèles de synthèse, comme les arbres de réaction construits à partir de templates de réactions, tentent de résoudre ce problème. Elles se concentrent cependant principalement sur les graphes 2D des molécules, sans tenir compte de l'information 3D cruciale qui détermine leur comportement dans les systèmes biologiques. Afin de combler cette lacune, une équipe de chercheurs de l'Université de Toronto, de l'Université de Cambridge et de l'Université McGill a développé SYNCOGEN, un framework innovant qui modélise simultanément les chemins de réaction et les coordonnées atomiques lors de la génération de molécules. Ce modèle permet de créer des structures 3D réalistes accompagnées de routes de synthèse accessibles, assurant ainsi que chaque molécule proposée est à la fois physiquement cohérente et facilement synthétisable en laboratoire. Pour entraîner SYNCOGEN, les chercheurs ont créé un ensemble de données nommé SYNSPACE, comprenant plus de 600 000 molécules synthétisables, construites à partir de 93 blocs de construction commerciaux et de 19 templates de réactions robustes. Chaque molécule est annotée avec plusieurs conformations 3D minimisées en énergie, offrant une ressource de formation riche et fiable, proche de la synthèse chimique réelle. L'architecture de SYNCOGEN repose sur une version modifiée de SEMLAFLOW, un réseau neuronal SE(3)-équivariant conçu pour la génération 3D. Elle inclut le traitement des graphes de réaction avec une diffusion masquée et la modélisation des coordonnées atomiques via le matching de flux. L'entraînement combine des pertes de croisement d'entropie pour les graphes, des erreurs quadratiques moyennes pour les coordonnées et des pénalités de distances entre atomes, assurant ainsi la validité chimique et la réalisme géométrique. SYNCOGEN dépasse les modèles existants en termes de performance sur les tâches de génération 3D non conditionnelles. Il excelle également dans des tâches comme le remplissage de fragments, essentiel pour la conception de médicaments, en générant des analogues facilement synthétisables avec de bons scores de docking et une tractabilité rétrosynthétique, ce que les modèles 3D classiques ne parviennent pas à faire. Les perspectives futures incluent l'extension du framework à des conditions basées sur des propriétés spécifiques ou des sites de liaison protéiques, l'élargissement de la bibliothèque de réactions et de blocs de construction, ainsi que l'intégration avec des robots de laboratoire pour une synthèse et un criblage automatisés. SYNCOGEN représente une avancée fondamentale dans la génération de molécules synthétisables, ouvrant la voie à des conceptions moléculaires plus réalistes et applicables en laboratoire. Ce modèle unifie les approches génératives avec des contraintes strictes de synthèse, rapprochant ainsi davantage la conception computationnelle de la pratique expérimentale, ce qui offre de nouvelles opportunités dans la découverte de médicaments et la science des matériaux. En termes d'évaluation, des experts du domaine soulignent que SYNCOGEN marque une étape importante vers une conception moléculaire plus réaliste, en intégrant à la fois la structure 3D et la faisabilité de synthèse. Son utilisation pourrait révolutionner la manière dont les laboratoires pharmaceutiques et chimiques développent de nouveaux composés, en réduisant le temps et les coûts liés à la synthèse. Les entreprises comme AstraZeneca, Merck ou Novartis, qui s'intéressent à l'automatisation et à l'optimisation des processus de découverte, pourraient tirer parti de ce type de technologies pour accélérer leurs recherches.