Command Palette
Search for a command to run...
Permutationsinvariante Graph-to-Sequence-Modell für vorlagenfreie Retrosynthese und Reaktionsvorhersage
Permutationsinvariante Graph-to-Sequence-Modell für vorlagenfreie Retrosynthese und Reaktionsvorhersage
Zhengkai Tu Connor W. Coley
Zusammenfassung
Die Syntheseplanung und die Vorhersage von Reaktionsausgängen sind zwei grundlegende Probleme im computerunterstützten Organischen Chemie, für die eine Vielzahl datengetriebener Ansätze entwickelt wurden. Ansätze, die auf natürlichsprachlichen Modellen basieren und jedes Problem als SMILES-zu-SMILES-Übersetzung modellieren, führen zu einer einfachen End-to-End-Formulierung, reduzieren den Bedarf an Datenvorverarbeitung und ermöglichen die Verwendung gut optimierter maschineller Übersetzungsarchitekturen. Allerdings sind SMILES-Darstellungen nicht effizient zur Erfassung von Informationen über molekulare Strukturen, wie durch den Erfolg der SMILES-Augmentierung zur Steigerung der empirischen Leistung nachgewiesen wurde.In diesem Beitrag beschreiben wir ein neues Graph2SMILES-Modell, das die Textgenerierungskraft von Transformer-Modellen mit der Permutationsinvarianz molekularer Graphencodierer kombiniert, wodurch die Notwendigkeit der Eingabedatenaugmentierung gemindert wird. Als End-to-End-Architektur kann Graph2SMILES als direkte Ersatzlösung für den Transformer in jeder Aufgabe eingesetzt werden, die Moleküle-zu-Moleküle-Transformationen betrifft. In unserem Encoder erfasst ein aufmerksamkeitsgesteuerter gerichteter Nachrichtenübertragungsneuronales Netzwerk (D-MPNN) lokale chemische Umgebungen, während der globale Attention-Encoder langreichweitige und intermolekulare Wechselwirkungen ermöglicht, unterstützt durch graphbasierte positionale Einbettung. Graph2SMILES verbessert die Top-1-Akkuranz der Transformer-Baselines um 1,7 % und 1,9 % bei der Vorhersage von Reaktionsausgängen auf den Datensätzen USPTO_480k und USPTO_STEREO sowie um 9,8 % bei der retrosynthetischen Planung in einem Schritt auf dem Datensatz USPTO_50k.