SELFormer: Molekularrepräsentationslernen mittels SELFIES-Sprachmodellen

Die automatisierte rechnergestützte Analyse des riesigen chemischen Raums ist für zahlreiche Forschungsbereiche von entscheidender Bedeutung, darunter die Arzneimittelforschung und die Materialwissenschaft. Vertreterlernen-Techniken wurden in letzter Zeit zunehmend eingesetzt, um kompakte und informative numerische Darstellungen komplexer Daten zu generieren. Ein effizienter Ansatz zur Lernung molekularer Repräsentationen besteht darin, stringbasierte Darstellungen chemischer Strukturen mittels Algorithmen des Natural Language Processing (NLP) zu verarbeiten. Die meisten bisher vorgeschlagenen Methoden nutzen hierfür die SMILES-Notation; diese ist jedoch mit einer Reihe von Problemen im Hinblick auf Gültigkeit und Robustheit verbunden, die das Modell daran hindern können, effektiv die in den Daten versteckten Erkenntnisse zu erschließen. In dieser Studie präsentieren wir SELFormer, ein auf Transformer-Architekturen basierendes chemisches Sprachmodell, das eine 100 % gültige, kompakte und expressive Notation – SELFIES – als Eingabe nutzt, um flexible und hochwertige molekulare Repräsentationen zu lernen. SELFormer wird auf zwei Millionen drug-like Verbindungen vortrainiert und anschließend für diverse Aufgaben der molekularen Eigenschaftsvorhersage verfeinert. Unsere Leistungsanalyse zeigt, dass SELFormer alle konkurrierenden Ansätze – einschließlich graphenbasiertes Lernen und SMILES-basierte chemische Sprachmodelle – bei der Vorhersage der wässrigen Löslichkeit von Molekülen sowie von unerwünschten Arzneimittelwirkungen übertrifft. Zudem visualisieren wir die von SELFormer gelernten molekularen Repräsentationen mittels Dimensionsreduktion, was darauf hindeutet, dass bereits das vortrainierte Modell Moleküle mit unterschiedlichen strukturellen Eigenschaften unterscheiden kann. Wir stellen SELFormer als programmierbare Werkzeugsoftware gemeinsam mit den zugehörigen Datensätzen und vortrainierten Modellen öffentlich zur Verfügung. Insgesamt zeigt unsere Forschung die Vorteile der Verwendung der SELFIES-Notation im Kontext chemischer Sprachmodellierung und eröffnet neue Möglichkeiten für die Gestaltung und Entdeckung neuer Wirkstoffkandidaten mit gewünschten Eigenschaften.