Duales Molekülvortraining

Angeregt durch den Erfolg im Bereich der natürlichen Sprachverarbeitung und der Computer Vision hat das Pre-Training in Chemoinformatik und Bioinformatik, insbesondere für molekularbasierte Aufgaben, erhebliche Aufmerksamkeit gefunden. Ein Molekül kann entweder durch einen Graphen dargestellt werden (bei dem Atome durch Bindungen verbunden sind) oder durch eine SMILES-Sequenz (bei der eine Tiefensuche auf dem molekularen Graphen mit spezifischen Regeln angewendet wird). Bestehende Arbeiten zum Pre-Training von Molekülen verwenden entweder ausschließlich graphische Darstellungen oder nur SMILES-Darstellungen. In dieser Arbeit schlagen wir vor, beide Darstellungsformen zu nutzen und einen neuen Pre-Training-Algorithmus zu entwickeln, den Dual-View Molecule Pre-Training (kurz DMP), der die Stärken beider Arten von molekularen Darstellungen effektiv kombiniert. Das Modell des DMP besteht aus zwei Zweigen: einem Transformer-Zweig, der die SMILES-Sequenz eines Moleküls als Eingabe verwendet, und einem GNN-Zweig (Graph Neural Network), der einen molekularen Graphen als Eingabe verwendet. Die Trainingsphase des DMP umfasst drei Aufgaben: (1) Vorhersage maskierter Token in einer SMILES-Sequenz durch den Transformer-Zweig, (2) Vorhersage maskierter Atome in einem molekularen Graphen durch den GNN-Zweig und (3) Maximierung der Konsistenz zwischen den beiden hochleveligen Darstellungen, die jeweils vom Transformer- und GNN-Zweig ausgegeben werden. Nach dem Pre-Training können wir entweder den Transformer-Zweig (der nach empirischen Ergebnissen empfohlen wird), den GNN-Zweig oder beide für Downstream-Aufgaben verwenden. DMP wurde an neun molekulare Eigenschaftsvorhersageaufgaben getestet und erreichte bei sieben davon standesübliche Leistungen. Des Weiteren testeten wir DMP an drei Retro-Syntheseaufgaben und erzielten dort ebenfalls standesübliche Resultate.