Beschleunigung der Arzneimittelsicherheitsbewertung mittels Bidirektional-LSTM für SMILES-Daten

Rechnerische Methoden sind nützlich, um den Fortschritt bei der Arzneimittelentdeckung zu beschleunigen. Die Arzneimittelentdeckung umfasst mehrere Schritte, darunter die Zielidentifikation und -validierung, die Entdeckung von Wirkstoffkandidaten (Lead Discovery) sowie die Optimierung dieser Kandidaten (Lead Optimisation). In der Phase der Lead-Optimierung werden die Eigenschaften der Wirkstoffkandidaten hinsichtlich Aufnahme, Verteilung, Stoffwechsel, Ausscheidung und Toxizität bewertet. Um die Vorhersage von Toxizität und Löslichkeit bei Wirkstoffkandidaten zu adressieren, wurden diese in der vereinfachten molekularen Eingabesystemnotation (Simplified Molecular Input Line Entry System, SMILES) dargestellt. Unter den verschiedenen Ansätzen, die auf SMILES-Daten basieren, wurde das vorgeschlagene Modell auf der Grundlage eines sequenzbasierten Ansatzes entwickelt. Das vorgeschlagene bidirektionale Long Short-Term Memory-Netzwerk (BiLSTM) ist eine Variante des rekurrenten neuronalen Netzwerks (Recurrent Neural Network, RNN), das Eingabemolekülsequenzen verarbeitet, um die strukturellen Merkmale von Molekülen sowohl in Vorwärts- als auch in Rückwärtsrichtung umfassend zu analysieren. Ziel des vorgeschlagenen Ansatzes ist es, die in SMILES-Zeichenketten kodierten sequenziellen Muster zu erfassen, die anschließend zur Vorhersage der Toxizität der Moleküle genutzt werden. Das vorgeschlagene Modell erreicht auf dem ClinTox-Datensatz eine ROC-Accuracy von 0,96 und übertrifft damit frühere Ansätze wie TrimNet und vortrainierte Graph-Neuronale Netze (Graph Neural Networks, GNN). Zudem erzielt das BiLSTM auf dem FreeSolv-Datensatz eine niedrige RMSE-Wert von 1,22 bei der Vorhersage der Löslichkeit und übertrifft damit das vorherige Modell.