ProtTrans: Auf dem Weg zum Entschlüsseln des Lebenscodes durch selbstüberwachtes Tiefenlernen und Hochleistungsrechnung

Computational Biology und Bioinformatik bieten riesige Datenschatzgruben aus Proteinfolgen, die ideal für Sprachmodelle (Language Models, LMs) aus der Natürlichen Sprachverarbeitung (Natural Language Processing, NLP) sind. Diese LMs erreichen neue Vorhersagegrenzen zu geringen Inferenzkosten. Hier trainierten wir zwei autoregressive Modelle (Transformer-XL, XLNet) und vier Autoencoder-Modelle (BERT, Albert, Electra, T5) anhand von Daten aus UniRef und BFD, die bis zu 393 Milliarden Aminosäuren enthalten. Die LMs wurden auf dem Supercomputer Summit unter Verwendung von 5616 GPUs und TPU-Pod mit bis zu 1024 Kernen trainiert. Eine Dimensionsreduktion zeigte, dass die rohen Protein-LM-Einbettungen (Embeddings) aus unbeschrifteten Daten einige biophysikalische Eigenschaften der Proteinfolgen erfassten. Wir überprüften den Vorteil der Verwendung dieser Einbettungen als ausschließliche Eingabe für mehrere nachfolgende Aufgaben. Die erste war eine pro Residuum Vorhersage der Proteinzweitstruktur (3-zuständige Genauigkeit Q3=81%-87%); die zweite waren pro Protein Vorhersagen der Subzellularen Lokalisation (zehn-zuständige Genauigkeit: Q10=81%) und Membran- versus wasserlöslich (2-zuständige Genauigkeit Q2=91%). Für die pro Residuum Vorhersagen übertrug das informativste Embedding (ProtT5) zum ersten Mal den Stand der Technik ohne evolutionäre Informationen zu verwenden, wodurch kostspielige Datenbanksuchen umgangen werden konnten. Zusammengefasst deuten die Ergebnisse darauf hin, dass Protein-LMs einige der Grammatikregeln der Sprache des Lebens gelernt haben. Um zukünftige Arbeiten zu erleichtern, veröffentlichten wir unsere Modelle unter https://github.com/agemagician/ProtTrans.