Une nouvelle IA générative révolutionne la prédiction des réactions chimiques en respectant les lois physiques
Une nouvelle approche d’intelligence artificielle générative pour prédire les réactions chimiques a été développée par une équipe du MIT, marquant une avancée significative dans la prédiction des mécanismes réactionnels. Contrairement aux modèles précédents basés sur les grands modèles linguistiques (LLM), qui prédisent souvent des produits sans respecter les lois fondamentales de la physique comme la conservation de la masse, cette nouvelle méthode intègre explicitement ces contraintes physiques. Le modèle, baptisé FlowER (Flow matching for Electron Redistribution), repose sur une représentation matricielle des électrons dans les réactions, inspirée des travaux du chimiste Ivar Ugi des années 1970. Cette matrice permet de suivre précisément les liaisons et les paires d’électrons libres, garantissant ainsi que ni les atomes ni les électrons ne sont créés ou perdus durant la prédiction. Le système a été présenté le 20 août dans la revue Nature, par Joonyoung Joung (actuellement professeur à l’université Kookmin en Corée du Sud), Mun Hong Fong (aujourd’hui à Duke University), Nicholas Casetti, Jordan Liles, Ne Dassanayake, et Connor Coley, professeur au MIT en génie chimique et informatique. Selon Joung, la capacité à prédire les produits d’une réaction est cruciale, notamment dans le développement de nouveaux médicaments. Les approches antérieures se contentaient d’associer des réactifs à des produits sans tenir compte des étapes intermédiaires ni des lois de conservation. « C’est un peu comme de l’alchimie », souligne-t-il, car les LLM peuvent générer des atomes inexistants ou en supprimer, ce qui rend leurs prédictions non physiques. FlowER, en revanche, garantit la conservation de la masse et des électrons grâce à sa représentation matricielle. Cette approche permet non seulement de prédire les produits finaux, mais aussi de reconstituer les mécanismes réactionnels étape par étape. Le modèle a été entraîné sur plus d’un million de réactions extraites de bases de brevets américains, et il surpasse ou égale les méthodes existantes en précision tout en assurant une validité physique élevée. Les chercheurs soulignent que, bien que le modèle soit encore en phase de démonstration, il constitue une preuve de concept prometteuse pour l’application du flow matching aux réactions chimiques. L’équipe met également l’accent sur la transparence : tout le code, les données et un jeu de données exhaustif des mécanismes réactionnels connus sont disponibles gratuitement sur GitHub. Ce dernier, développé par Joung, est l’un des premiers à offrir une base de données ouverte à grande échelle pour l’apprentissage automatique en chimie mécanistique. « Nous sommes l’un des groupes pionniers à rendre ces ressources accessibles à tous », affirme Fong. Les perspectives futures incluent l’extension du modèle aux réactions impliquant des métaux et des cycles catalytiques, actuellement peu représentés. Coley estime que cette technologie pourrait jouer un rôle clé dans la découverte de nouvelles réactions, la compréhension des mécanismes complexes et l’innovation en chimie médicinale, matériaux, combustion ou chimie électrochimique. Bien que ce soit encore une première étape, l’équipe voit dans FlowER un tremplin vers une compréhension plus profonde et plus automatisée des réactions chimiques. Le projet a été soutenu par le consortium Machine Learning for Pharmaceutical Discovery and Synthesis et la National Science Foundation.