HyperAIHyperAI

Command Palette

Search for a command to run...

ProtTrans: Auf dem Weg zum Entschlüsseln des Lebenscodes durch selbstüberwachtes Tiefenlernen und Hochleistungsrechnung

Zusammenfassung

Computational Biology und Bioinformatik bieten riesige Datenschatzgruben aus Proteinfolgen, die ideal für Sprachmodelle (Language Models, LMs) aus der Natürlichen Sprachverarbeitung (Natural Language Processing, NLP) sind. Diese LMs erreichen neue Vorhersagegrenzen zu geringen Inferenzkosten. Hier trainierten wir zwei autoregressive Modelle (Transformer-XL, XLNet) und vier Autoencoder-Modelle (BERT, Albert, Electra, T5) anhand von Daten aus UniRef und BFD, die bis zu 393 Milliarden Aminosäuren enthalten. Die LMs wurden auf dem Supercomputer Summit unter Verwendung von 5616 GPUs und TPU-Pod mit bis zu 1024 Kernen trainiert. Eine Dimensionsreduktion zeigte, dass die rohen Protein-LM-Einbettungen (Embeddings) aus unbeschrifteten Daten einige biophysikalische Eigenschaften der Proteinfolgen erfassten. Wir überprüften den Vorteil der Verwendung dieser Einbettungen als ausschließliche Eingabe für mehrere nachfolgende Aufgaben. Die erste war eine pro Residuum Vorhersage der Proteinzweitstruktur (3-zuständige Genauigkeit Q3=81%-87%); die zweite waren pro Protein Vorhersagen der Subzellularen Lokalisation (zehn-zuständige Genauigkeit: Q10=81%) und Membran- versus wasserlöslich (2-zuständige Genauigkeit Q2=91%). Für die pro Residuum Vorhersagen übertrug das informativste Embedding (ProtT5) zum ersten Mal den Stand der Technik ohne evolutionäre Informationen zu verwenden, wodurch kostspielige Datenbanksuchen umgangen werden konnten. Zusammengefasst deuten die Ergebnisse darauf hin, dass Protein-LMs einige der Grammatikregeln der Sprache des Lebens gelernt haben. Um zukünftige Arbeiten zu erleichtern, veröffentlichten wir unsere Modelle unter https://github.com/agemagician/ProtTrans.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp