LLNL et Meta dévoilent OPoly26 : le plus vaste ensemble de données au monde pour entraîner l'IA à la découverte de nouveaux polymères
Dans une initiative majeure visant à accélérer la découverte de nouveaux matériaux, Lawrence Livermore National Laboratory (LLNL) et Meta ont uni leurs forces pour créer le plus vaste ensemble de données ouvert sur la chimie atomique des polymères jamais réalisé. Ce projet, baptisé OPoly26, fournit une ressource essentielle de plusieurs millions de simulations quantiques précises, destinée à entraîner des modèles d'intelligence artificielle capables de prédire le comportement complexe des plastiques, films, batteries et autres matériaux du quotidien. Les polymères sont omniprésents, constituant la base de vêtements, d'emballages, de matériaux de construction et d'électronique. Cependant, leur développement rencontre des obstacles, notamment en ce qui concerne le recyclage et la nécessité de réduire l'impact environnemental des substances per- et polyfluoroalkylées (PFAS), souvent qualifiées de « produits chimiques éternels ». Le dataset OPoly26, détaillé dans une publication récente sur le serveur prépublications arXiv, comble un déficit critique en offrant une bibliothèque de référence sans précédent. Il contient plus de 6 millions de calculs de théorie de la fonctionnelle de la densité (DFT) sur des systèmes chimiques polymères, une quantité près de dix fois supérieure à la plus grande base de données comparable existante. Cette collaboration est décrite par Evan Antoniuk, chercheur à LLNL et co-investigateur principal, comme un « partenariat naturel ». Alors que Meta a fourni des ressources de calcul massives permettant d'accomplir 1,2 milliard d'heures de cœurs de calcul pour les simulations DFT et l'entraînement de modèles de potentiels interatomiques appris par machine (MLIP), LLNL a apporté sa puissance de calcul grâce à son supercalculateur Tuolumne et son expertise spécifique en science des polymères. Grâce à cette infrastructure, des années de travaux de simulation ont été compressées en quelques mois. Le résultat est un outil qui permet aux chercheurs d'entraîner des algorithmes d'apprentissage machine en quelques heures ou jours seulement, révélant des motifs invisibles auparavant. Contrairement aux approches antérieures souvent limitées à des structures stables, OPoly26 se distingue par l'échantillonnage explicite de centaines de milliers de configurations réactives. Sam Blau, chimiste au Lawrence Berkeley National Laboratory et co-investigateur principal, explique que la réactivité — c'est-à-dire la rupture et la formation de liaisons chimiques — est centrale pour la synthèse, la fabrication, le vieillissement et le recyclage des polymères. En intégrant ces données réalistes, les modèles d'IA montrent des améliorations substantielles de leur précision, dépassant largement les performances obtenues avec des ensembles de données de petites molécules seuls. Rob Sherman, vice-président des politiques chez Meta, a souligné que ce partenariat démontre comment la science ouverte et l'IA peuvent accélérer les percées en recherche. En rendant ces données publiques sous licence ouverte, les partenaires visent à démocratiser l'accès à des outils puissants pour faire face à des défis critiques dans les domaines de la santé et de l'environnement. Au-delà de la génération de données, l'équipe a introduit une suite initiale de tâches d'évaluation spécifiques aux polymères pour tester la capacité des modèles à capturer des phénomènes complexes comme la solvatation. Les travaux futurs incluront l'évaluation de ces modèles par rapport à des mesures expérimentales pour valider leur pertinence dans des conditions réelles. Cette démarche collaborative, impliquant également l'Université de Californie, garantit que les bénéfices de cet investissement public-privé profitent largement à l'ensemble de la communauté scientifique, académique et industrielle.
