HyperAIHyperAI
il y a un mois

Analyse des représentations moléculaires apprises pour la prédiction des propriétés

Kevin Yang; Kyle Swanson; Wengong Jin; Connor Coley; Philipp Eiden; Hua Gao; Angel Guzman-Perez; Timothy Hopper; Brian Kelley; Miriam Mathea; Andrew Palmer; Volker Settels; Tommi Jaakkola; Klavs Jensen; Regina Barzilay
Analyse des représentations moléculaires apprises pour la prédiction des propriétés
Résumé

Les progrès dans les machines neuronales ont conduit à une gamme étendue de solutions algorithmiques pour la prédiction des propriétés moléculaires. Deux classes de modèles en particulier ont produit des résultats prometteurs : les réseaux de neurones appliqués aux empreintes digitales moléculaires calculées ou aux descripteurs conçus par des experts, et les réseaux de neurones convolutionnels sur graphes qui construisent une représentation moléculaire apprise en opérant sur la structure graphique de la molécule. Cependant, la littérature récente n'a pas encore clairement déterminé quelle de ces deux méthodes est supérieure lorsqu'il s'agit de généraliser à un nouvel espace chimique. De plus, les recherches antérieures ont rarement examiné ces nouveaux modèles dans des contextes de recherche industrielle en comparaison avec les modèles existants utilisés.Dans cet article, nous évaluons de manière exhaustive les modèles sur 19 jeux de données publics et 16 jeux de données propriétaires industriels couvrant une grande variété d'objectifs chimiques. En outre, nous introduisons un modèle de réseau neuronal convolutif sur graphe qui cohérentement égale ou dépasse les performances des modèles utilisant des descripteurs moléculaires fixes ainsi que les architectures neuronales précédentes sur graphe, tant sur les jeux de données publics que propriétaires. Nos résultats empiriques indiquent que, bien que ces approches basées sur ces représentations n'aient pas encore atteint le niveau de reproductibilité expérimentale, notre modèle proposé offre néanmoins des améliorations significatives par rapport aux modèles actuellement utilisés dans les flux de travail industriels.