Structure to Property : Embeddings d'éléments chimiques et approche par apprentissage profond pour une prédiction précise des propriétés chimiques

Nous présentons le modèle elEmBERT pour les tâches de classification chimique. Il repose sur des techniques d’apprentissage profond, notamment une architecture d’encodeur multicouche. Nous démontrons les possibilités offertes par notre approche sur des ensembles de composés organiques, inorganiques et cristallins. En particulier, nous avons développé et testé le modèle sur les benchmarks Matbench et MoleculeNet, qui incluent des évaluations de propriétés cristallines ainsi que des tâches liées à la conception de médicaments. Nous menons également une analyse des représentations vectorielles des composés chimiques, mettant en lumière les motifs sous-jacents présents dans les données structurales. Notre modèle présente des capacités prédictives exceptionnelles et s’avère universellement applicable aux jeux de données moléculaires et matériau. Par exemple, sur le jeu de données Tox21, nous avons atteint une précision moyenne de 96 %, dépassant ainsi le meilleur résultat antérieur de 10 %.