Tous les modèles SMILES à auto-encodeur variationnel

Les autoencodeurs variationnels (VAEs) définis sur des chaînes SMILES et des représentations basées sur des graphes de molécules promettent d'améliorer l'optimisation des propriétés moléculaires, révolutionnant ainsi les industries pharmaceutiques et des matériaux. Cependant, ces VAEs sont entravés par la nature non unique des chaînes SMILES et le coût computationnel des convolutions de graphes. Pour passer efficacement les messages le long de tous les chemins à travers le graphe moléculaire, nous codons plusieurs chaînes SMILES d'une seule molécule en utilisant un ensemble de réseaux neuronaux récurrents empilés, en regroupant les représentations cachées de chaque atome entre les représentations SMILES, et en utilisant une attention de regroupement pour construire une représentation latente finale de longueur fixe. En décodant ensuite vers un ensemble disjoint de chaînes SMILES de la molécule, notre VAE All SMILES apprend une correspondance presque bijective entre les molécules et les représentations latentes proches du sous-espace à forte densité de probabilité de la distribution a priori. Nos représentations latentes dérivées des chaînes SMILES mais basées sur les molécules surpassent significativement l'état de l'art dans diverses tâches de régression supervisée et semi-supervisée des propriétés moléculaires ainsi que dans l'optimisation des propriétés moléculaires.