Selbstüberwachter Graph-Transformer auf großskaligen molekularen Daten

Die Gewinnung informativer Darstellungen von Molekülen ist eine entscheidende Voraussetzung für die künstliche Intelligenz-gestützte Arzneimittelentwicklung und -entdeckung. In jüngsten Forschungsarbeiten werden Moleküle als Graphen abstrahiert, und Graph Neural Networks (GNNs) werden zur Lernung molekularer Repräsentationen eingesetzt. Dennoch behindern zwei Probleme die praktische Anwendung von GNNs: (1) die unzureichende Anzahl an gelabelten Molekülen für überwachtes Training; (2) die schlechte Generalisierungsfähigkeit gegenüber neu synthetisierten Molekülen. Um beide Herausforderungen zu bewältigen, stellen wir einen neuen Ansatz namens GROVER vor – abgeleitet von „Graph Representation frOm self-superVised mEssage passing tRansformer“. Durch sorgfältig entworfene selbstüberwachte Aufgaben auf Knoten-, Kanten- und Graph-Ebene kann GROVER reichhaltige strukturelle und semantische Informationen aus riesigen Mengen unlabeled molekularer Daten erlernen. Um solche komplexen Informationen effizient zu kodieren, integriert GROVER Message-Passing-Netzwerke in eine Transformer-ähnliche Architektur, wodurch eine Klasse besonders ausdrucksstarker Molekül-Encoder entsteht. Die Flexibilität von GROVER ermöglicht eine effiziente Trainingsdurchführung auf großskaligen molekularen Datensätzen ohne jegliche überwachende Signalisierung, wodurch die oben genannten zwei Probleme überwunden werden. Wir pre-trainen GROVER mit 100 Millionen Parametern auf 10 Millionen unlabeled Molekülen – das größte GNN und der umfangreichste Trainingsdatensatz im Bereich der molekularen Repräsentationslernung. Anschließend nutzen wir das vortrainierte GROVER für die Vorhersage molekularer Eigenschaften, gefolgt von einer auf die jeweilige Aufgabe spezifischen Feinabstimmung. Auf 11 anspruchsvollen Benchmarks zeigen wir eine erhebliche Verbesserung (durchschnittlich über 6 %) gegenüber aktuellen State-of-the-Art-Methoden. Die gewonnenen Erkenntnisse belegen, dass gut gestaltete selbstüberwachte Verlustfunktionen sowie stark ausdrucksstarke vortrainierte Modelle ein erhebliches Potenzial für die Leistungssteigerung bieten.