Textgesteuerte Molekülgenerierung mit Diffusions-Sprachmodell

Textgeleitete Molekülgenerierung ist eine Aufgabe, bei der Moleküle generiert werden, um spezifische textbasierte Beschreibungen zu entsprechen. Kürzlich basieren die meisten existierenden Methoden zur SMILES-basierten Molekülgenerierung auf einer autoregressiven Architektur. In dieser Arbeit schlagen wir Textgeleitete Molekülgenerierung mit Diffusions-Sprachmodell (TGM-DLM) vor, einen neuen Ansatz, der Diffusionsmodelle nutzt, um die Einschränkungen autoregressiver Methoden zu überwinden. TGM-DLM aktualisiert die Token-Einbettungen innerhalb des SMILES-Strings kollektiv und iterativ durch einen zweiphasigen Diffusionsgenerierungsprozess. Die erste Phase optimiert die Einbettungen aus zufälligem Rauschen unter Anleitung der textuellen Beschreibung, während die zweite Phase ungültige SMILES-Strings korrigiert, um gültige molekulare Darstellungen zu bilden. Wir zeigen, dass TGM-DLM das autoregressive Modell MolT5-Base übertrifft, ohne zusätzliche Datenressourcen zu benötigen. Unsere Ergebnisse unterstreichen die bemerkenswerte Effektivität von TGM-DLM bei der Generierung kohärenter und präziser Moleküle mit spezifischen Eigenschaften und eröffnen neue Wege in der Arzneimittelentdeckung und verwandten wissenschaftlichen Bereichen. Der Quellcode wird veröffentlicht unter: https://github.com/Deno-V/tgm-dlm.