vor 2 Monaten

State-of-the-Art erweiterte NLP-Transformer-Modelle für direkte und einstufige Retrosynthese

Igor V. Tetko; Pavel Karpov; Ruud Van Deursen; Guillaume Godin

Abstract

Wir untersuchten den Einfluss verschiedener Trainings-Szenarien auf die Vorhersage der (Rückwärts-)Synthese chemischer Verbindungen unter Verwendung einer textähnlichen Darstellung chemischer Reaktionen (SMILES) und der Neuronalen Netzwerk-Architektur Transformer aus dem Bereich der Natürlichen Sprachverarbeitung. Wir zeigten, dass Datenverstärkung (Data Augmentation), eine mächtige Methode, die in der Bildverarbeitung eingesetzt wird, den Effekt der Datenspeicherung durch neuronale Netze beseitigte und ihre Leistung bei der Vorhersage neuer Sequenzen verbesserte. Dieser Effekt wurde beobachtet, wenn die Verstärkung gleichzeitig für Eingangs- und Ziel-Daten angewendet wurde. Die Top-5-Genauigkeit betrug 84,8 % für die Vorhersage des größten Fragments (was die Haupttransformation für klassische Rückwärts-Synthese identifiziert) im Testdatensatz USPTO-50k und wurde durch eine Kombination von SMILES-Verstärkung und einem Strahlensuchalgorithmus erreicht. Der gleiche Ansatz lieferte erheblich bessere Ergebnisse für die Vorhersage direkter Reaktionen aus dem einstufigen Testdatensatz USPTO-MIT. Unser Modell erreichte eine Top-1-Genauigkeit von 90,6 % und eine Top-5-Genauigkeit von 96,1 % für dessen anspruchsvolle gemischte Menge sowie eine Top-5-Genauigkeit von 97 % für den separierten USPTO-MIT-Datensatz. Es verbesserte zudem erheblich die Ergebnisse für die einstufige Rückwärts-Synthese des vollständigen USPTO-Datensatzes sowohl in Bezug auf die Top-1- als auch auf die Top-10-Genauigkeit. Die Häufigkeit des am häufigsten generierten SMILES korrelierte gut mit dem Vorhersageergebnis und kann als Maßstab für die Qualität der Reaktionsvorhersage verwendet werden.