Uni-Mol: Ein universeller Rahmen für die Lernung dreidimensionaler molekularer Darstellungen

Die molekulare Repräsentationslernung (Molecular Representation Learning, MRL) hat aufgrund ihrer zentralen Rolle beim Lernen aus begrenzten überwachten Daten für Anwendungen wie Arzneimittelentwicklung erhebliche Aufmerksamkeit erfahren. In den meisten MRL-Methoden werden Moleküle als eindimensionale Sequenztoken oder zweidimensionale Topologiegraphen behandelt, was ihre Fähigkeit einschränkt, 3D-Informationen für nachgeschaltete Aufgaben zu integrieren – insbesondere erschwert dies die Vorhersage oder Generierung von 3D-Geometrien. In dieser Arbeit präsentieren wir Uni-Mol, einen universellen MRL-Framework, der die Repräsentationsfähigkeit und Anwendungsspanne bestehender MRL-Verfahren erheblich erweitert. Uni-Mol besteht aus zwei Modellen mit derselben SE(3)-äquivarianten Transformer-Architektur: einem molekularen Vortrainingsmodell, das mit 209 Millionen molekularer Konformationen trainiert wurde, sowie einem Taschen-Vortrainingsmodell, das mit 3 Millionen Kandidaten für Protein-Taschen trainiert wurde. Die beiden Modelle werden unabhängig für getrennte Aufgaben eingesetzt und erst bei protein-liganden-Bindungsaufgaben kombiniert. Durch die sorgfältige Integration von 3D-Informationen übertrifft Uni-Mol die State-of-the-Art (SOTA)-Leistung in 14 von 15 Aufgaben zur Vorhersage molekularer Eigenschaften. Darüber hinaus erzielt Uni-Mol herausragende Ergebnisse bei 3D-raumbezogenen Aufgaben wie der Vorhersage von Protein-Liganden-Bindungsorientierungen und der Generierung molekularer Konformationen. Schließlich zeigen wir, dass Uni-Mol erfolgreich auf Aufgaben mit wenigen Beispielen, wie der Vorhersage der „Druggability“ von Taschen, angewendet werden kann. Das Modell und die zugrundeliegenden Daten werden öffentlich unter https://github.com/dptech-corp/Uni-Mol verfügbar gemacht.