SELFormer : Apprentissage des représentations moléculaires par des modèles linguistiques SELFIES

L'analyse computationnelle automatisée de l'immense espace chimique est essentielle dans de nombreux domaines de recherche, tels que la découverte de médicaments et la science des matériaux. Les techniques d'apprentissage de représentation ont récemment été employées dans le but principal de générer des expressions numériques compactes et informatives pour des données complexes. Une approche efficace pour apprendre des représentations moléculaires consiste à traiter les notations sous forme de chaînes de caractères des composés chimiques à l'aide d'algorithmes de traitement du langage naturel (NLP). La majorité des méthodes proposées jusqu'à présent utilisent la notation SMILES à cet effet ; toutefois, SMILES est associée à de nombreux problèmes liés à la validité et à la robustesse, pouvant entraver l'efficacité du modèle à extraire les connaissances cachées dans les données. Dans cette étude, nous proposons SELFormer, un modèle linguistique chimique basé sur l'architecture Transformer, qui utilise comme entrée une notation 100 % valide, compacte et expressive, appelée SELFIES, afin d'apprendre des représentations moléculaires souples et de haute qualité. SELFormer est pré-entraîné sur deux millions de composés de type médicament et affiné pour diverses tâches de prédiction de propriétés moléculaires. Nos évaluations de performance ont révélé que SELFormer surpassait toutes les méthodes concurrentes, y compris les approches fondées sur les graphes et les modèles linguistiques chimiques basés sur SMILES, dans la prédiction de la solubilité aqueuse des molécules et des réactions indésirables aux médicaments. Nous avons également visualisé les représentations moléculaires apprises par SELFormer à l’aide de techniques de réduction de dimensionnalité, ce qui indique que même le modèle pré-entraîné est capable de distinguer des molécules présentant des propriétés structurelles différentes. Nous mettons à disposition SELFormer sous forme d’outil programmable, accompagné de ses jeux de données et de ses modèles pré-entraînés. Globalement, cette recherche démontre les avantages de l’utilisation de la notation SELFIES dans le cadre du modélisation linguistique chimique et ouvre de nouvelles perspectives pour la conception et la découverte de nouveaux candidats médicamenteux aux caractéristiques souhaitées.