HyperAIHyperAI
vor 18 Tagen

DistilProtBert: Ein verdichteter Protein-Sprachmodell zur Unterscheidung zwischen echten Proteinen und ihren zufällig vertauschten Gegenstücken

{Ron Unger, Yanay Ofran, Yaron Geffen}
Abstract

Kürzlich wurden Deep-Learning-Modelle, ursprünglich in der Natural Language Processing (NLP)-Forschung entwickelt, erfolgreich zur Analyse von Proteinsequenzen eingesetzt. Ein wesentlicher Nachteil dieser Modelle liegt in ihrer Größe hinsichtlich der Anzahl an zu schätzenden Parametern sowie dem erheblichen Bedarf an Rechenressourcen. In der NLP wurden in letzter Zeit sogenannte „distillierte“ Modelle auf Basis des Konzepts von Lehrer- und Schülernetzwerken weit verbreitet eingesetzt. Hier adaptieren wir dieses Konzept für die Analyse von Proteinsequenzen und entwickeln DistilProtBert, eine distillierte Variante des erfolgreichen ProtBert-Modells. Durch die Implementierung dieses Ansatzes reduzieren wir die Netzwerkgröße und die Ausführungszeit um jeweils 50 % und die für das Pretraining benötigten Rechenressourcen um 98 % im Vergleich zum ursprünglichen ProtBert-Modell. Anhand zweier veröffentlichter Aufgaben zeigen wir, dass die Leistungsfähigkeit des distillierten Modells der des vollständigen Modells nahekommt. Anschließend testen wir die Fähigkeit von DistilProtBert, echte von zufälligen Proteinsequenzen zu unterscheiden. Diese Aufgabe ist äußerst anspruchsvoll, wenn die Zusammensetzung auf der Ebene einzelner, doppelter und dreifacher Aminosäuren beibehalten wird; traditionelle maschinelle Lernalgorithmen stoßen hier an ihre Grenzen. Wir zeigen nun, dass DistilProtBert sowohl auf singulett-, doublett- als auch triplettschleiften Versionen des menschlichen Proteoms sehr gut abschneidet, mit AUC-Werten von 0,92, 0,91 und 0,87 jeweils. Schließlich schlagen wir vor, dass die Untersuchung der geringen Zahl an Falschpositivklassifikationen (d. h. zufällig geschüttelte Sequenzen, die von DistilProtBert als Proteine klassifiziert werden) möglicherweise dazu beitragen kann, de-novo potenzielle, naturähnliche Proteine zu identifizieren, die durch zufällige Schüttelung von Aminosäuresequenzen entstehen.