HyperAI

Ausgewählt Für NeurIPS 24! Das Team Der Zhejiang-Universität Schlug Ein Neues Denoising-Protein-Sprachmodell DePLM Vor, Das Mutationseffekte Besser Vorhersagt Als Das SOTA-Modell

特色图像

Als Hauptträger biologischer Funktionen hat die im Laufe von Milliarden Jahren der Evolution entstandene Vielfalt an Proteinstrukturen und -funktionen wichtige Möglichkeiten für Fortschritte in Bereichen wie der Arzneimittelforschung und der Materialwissenschaft geschaffen. Allerdings können die inhärenten Eigenschaften bestehender Proteine (wie etwa die thermische Stabilität) in vielen Fällen den tatsächlichen Anforderungen nicht gerecht werden. Daher konzentrieren sich Forscher auf die Optimierung von Proteinen, um ihre Eigenschaften zu verbessern.

Traditionelles Deep Mutation Scanning (DMS) und gerichtete Evolution (DE) basieren auf teuren experimentellen Nasstechniken. Im Gegensatz dazu können auf maschinellem Lernen basierende Methoden Mutationseffekte schnell auswerten, was für eine effiziente Proteinoptimierung entscheidend ist.Ein weit verbreiteter Forschungsansatz besteht darin, evolutionäre Informationen zu nutzen, um die Auswirkungen von Mutationen zu testen.Anhand evolutionärer Informationen lässt sich anhand der Wahrscheinlichkeit, mit der eine Aminosäure an einer bestimmten Position in einer Proteinsequenz auftritt, auf die Auswirkung einer Mutation schließen. Um die damit verbundene Wahrscheinlichkeit der Mutation einer Aminosäure zu einer anderen zu berechnen, verwenden gängige Methoden Proteinsprachenmodelle (PLMs), die anhand von Millionen von Proteinsequenzen trainiert wurden, um evolutionäre Informationen auf selbstüberwachte Weise zu erfassen.

Allerdings übersehen bestehende Ansätze oft zwei wichtige Aspekte:- Erstens gelingt es den bestehenden Methoden nicht, irrelevante evolutionäre Informationen zu entfernen. Um den Überlebensbedürfnissen gerecht zu werden, optimiert die Evolution mehrere Merkmale gleichzeitig, wodurch die Optimierung der Zielmerkmale oft verdeckt wird. Zweitens enthalten die aktuellen gängigen Lernziele datensatzspezifische Informationen, die häufig zu stark auf die aktuellen Trainingsdaten passen, wodurch die Fähigkeit des Modells zur Verallgemeinerung auf neue Proteine eingeschränkt wird.

Um diese Herausforderungen zu bewältigen, haben Professor Chen Huajun, Dr. Zhang Qiang und andere von der School of Computer Science and Technology der Zhejiang University, dem Zhejiang University International College und dem Zhejiang University Hangzhou International Science and Technology Innovation Center gemeinsam ein neues, für Proteine optimiertes Denoising Protein Language Model (DePLM) vorgeschlagen.Der Schlüssel liegt darin, die vom Proteinsprachenmodell erfassten evolutionären Informationen EI als eine Mischung aus merkmalsbezogenen und irrelevanten Informationen zu betrachten, wobei die irrelevanten Informationen dem „Rauschen“ des Zielmerkmals ähneln und daher eliminiert werden müssen. Umfangreiche Experimente zeigen, dass der in dieser Studie vorgeschlagene rangbasierte Rauschunterdrückungsprozess die Proteinoptimierungsleistung erheblich verbessert und gleichzeitig starke Generalisierungsfähigkeiten beibehält.

Die entsprechenden Ergebnisse wurden für die Top-Konferenz NeurIPS 24 unter dem Titel „DePLM: Denoising Protein Language Models for Property Optimization“ ausgewählt.

Forschungshighlights:

* DePLM kann irrelevante Informationen effektiv herausfiltern und die Proteinoptimierung verbessern, indem es die in PLM enthaltenen evolutionären Informationen optimiert

* Diese Studie entwirft einen auf Rangfolge basierenden Vorwärtsprozess in einem Denoising-Diffusion-Framework, das den Diffusionsprozess auf den Rangfolgeraum der Mutationsmöglichkeiten ausdehnt und das Lernziel von der Minimierung numerischer Fehler zur Maximierung der Rangfolgerelevanz umwandelt, wodurch datensatzunabhängiges Lernen gefördert und eine starke Generalisierungsfähigkeit sichergestellt wird.

* Umfangreiche experimentelle Ergebnisse zeigen, dass DePLM nicht nur die aktuellen Modelle bei der Vorhersage von Mutationseffekten übertrifft, sondern auch starke Generalisierungsfähigkeiten für neue Proteine aufweist


Papieradresse:
https://neurips.cc/virtual/2024/poster/95517 

Folgen Sie dem offiziellen Konto und antworten Sie mit „Denoised Protein Language Model“, um das vollständige PDF zu erhalten

Download des ProteinGym-Proteinmutationsdatensatzes:
https://hyper.ai/datasets/32818

Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:

https://github.com/hyperai/awesome-ai4s

Datensatz: Eine umfangreiche Sammlung von Deep-Mutation-Screening-Experimenten

ProteinGym ist eine umfangreiche Sammlung von Deep Mutational Screening (DMS)-Experimenten mit 217 Datensätzen.Aufgrund der Längenbeschränkung von PLM schlossen die Forscher Datensätze mit Wildtyp-Proteinen mit einer Länge von mehr als 1.024 aus und behielten schließlich 201 DMS-Datensätze bei. ProteinGym klassifiziert DMS in fünf grobe Kategorien: 66 für Stabilität, 69 für Fitness, 16 für Expression, 12 für Bindung und 38 für Aktivität.

* Leistungsvergleichsexperiment:Die Forscher verwendeten einen randomisierten Kreuzvalidierungsansatz, bei dem jede Mutation im Datensatz zufällig einer von fünf Faltungen zugewiesen wurde. Die Leistung des Modells wurde dann durch Mittelung der Ergebnisse dieser fünf Faltungen bewertet.

* Experiment zur Generalisierungsfähigkeit:Aus einem Testdatensatz wählen die Forscher nach dem Zufallsprinzip bis zu 40 Datensätze aus, die mit ihrem Optimierungsziel (wie etwa der thermischen Stabilität) als Trainingsdaten übereinstimmen. Dabei stellen sie sicher, dass die Sequenzähnlichkeit zwischen dem Trainingsprotein und dem Testprotein weniger als 50% beträgt, um Datenlecks zu vermeiden.

Modellarchitektur: Erweiterung des Diffusionsmodells basierend auf dem Vorwärtsprozess im Sortierraum

Wie oben erwähnt, besteht der Kern von DePLM darin, die vom Proteinsprachenmodell PLM erfassten Evolutionsinformationen EI als eine Mischung aus merkmalsbezogenen und irrelevanten Informationen zu betrachten, wobei irrelevante Informationen dem „Rauschen“ des Zielmerkmals ähnlich sind, und dieses „Rauschen“ zu eliminieren. Um dieses Ziel zu erreichen, ließen sich die Forscher vom Denoising-Diffusion-Modell inspirieren, das verrauschte Eingaben verfeinert, um eine gewünschte Ausgabe zu erzeugen.

Konkret entwickelten die Forscher einen Vorwärtsprozess auf Grundlage von Sortierinformationen, um das Diffusionsmodell um die Beseitigung von Rauschen aus evolutionären Informationen zu erweitern, wie in der folgenden Abbildung dargestellt.Auf der linken Seite der Abbildung unten verwendet DePLM die aus PLM abgeleitete Evolutionswahrscheinlichkeit als Eingabe und generiert eine denoistete Wahrscheinlichkeit für ein bestimmtes Attribut, um die Auswirkungen von Mutationen vorherzusagen; In der Mitte und auf der rechten Seite der Abbildung unten verwendet das Denoising-Modul den Feature-Encoder, um Darstellungen des Proteins unter Berücksichtigung der Primär- und Tertiärstrukturen zu generieren, die dann verwendet werden, um das Rauschen in der Wahrscheinlichkeit durch das Denoising-Modul zu filtern.


Übersicht über die DePLM-Architektur

Die Rauschunterdrückung bei Diffusionsmodellen besteht aus zwei Hauptprozessen:Der Vorwärtsdiffusionsprozess und der Rückwärtsrauschenprozess müssen erlernt werden. Während des Vorwärtsdiffusionsprozesses wird dem wahren Wert allmählich eine kleine Menge Rauschen hinzugefügt. Anschließend lernt der umgekehrte Rauschunterdrückungsprozess, den wahren Wert wiederherzustellen, indem er das angesammelte Rauschen schrittweise entfernt.

Bei der Anwendung dieser Modelle zur Rauschunterdrückung von Mutationswahrscheinlichkeiten bei der Proteinoptimierung gibt es jedoch zwei große Herausforderungen. Erstens weist die Beziehung zwischen tatsächlichen Merkmalswerten und experimentellen Messungen häufig eine Nichtlinearität auf, die auf die Vielfalt der experimentellen Methoden zurückzuführen ist. Wenn Sie sich bei der Rauschunterdrückung ausschließlich auf die Minimierung der Differenz zwischen vorhergesagten und beobachteten Werten verlassen, kann dies dazu führen, dass das Modell zu stark an einen bestimmten Datensatz angepasst wird, wodurch die Generalisierungsfähigkeit des Modells verringert wird. Zweitens ist es für die Forscher im Gegensatz zu herkömmlichen Rauschunterdrückungs-Diffusionsmodellen erforderlich, dass das akkumulierte Rauschen konvergiert.

Um diese Herausforderungen zu bewältigen, schlugen die Forscher einen rangbasierten Denoising-Diffusionsprozess vor.Der Schwerpunkt liegt dabei auf der Maximierung der Ranking-Relevanz, wie in der folgenden Abbildung dargestellt. Auf der linken Seite der Abbildung unten umfasst das Training von DePLM zwei Hauptschritte: einen Vorwärtskorruptionsprozess und einen erlernten Rückwärts-Rauschunterdrückungsprozess.

Im Schritt der Rauschaddition verwendeten die Forscher einen Sortieralgorithmus, um Trajektorien zu generieren, die von Rangfolgen auf Grundlage eigenschaftsspezifischer Wahrscheinlichkeit zu Rangfolgen auf Grundlage evolutionärer Wahrscheinlichkeit übergingen, und DePLM wurde darauf trainiert, diesen umgekehrten Prozess zu simulieren. Auf der rechten Seite der folgenden Abbildung zeigen die Forscher die Änderung des Spearman-Koeffizienten beim Übergang von der Evolutionswahrscheinlichkeit zur eigenschaftsspezifischen Wahrscheinlichkeit.


DePLM-Schulungsprozess

Um schließlich datensatzunabhängiges Lernen und starke Modellgeneralisierungsfähigkeiten zu erreichen,Die Forscher führen einen Diffusionsprozess im Ordinationsraum der Merkmalswerte durch und ersetzen das traditionelle Ziel der Minimierung numerischer Fehler durch die Maximierung der Ordinationsrelevanz.

Forschungsergebnisse: DePLM verfügt über überlegene Leistung und starke Generalisierungsfähigkeit

Leistungsbewertung: Überprüfung der Vorteile der Kombination evolutionärer Informationen mit experimentellen Daten

Um zunächst die Leistung von DePLM bei Protein-Engineering-Aufgaben zu bewerten, verglichen die Forscher es mit neun Basismodellen, darunter vier von Grund auf trainierte Protein-Sequenz-Encoder (CNN, ResNet, LSTM und Transformer) und fünf selbstüberwachte Modelle (OHE, eine fein abgestimmte Version von ESM-1v, ESM-MSA, Tranception und ProteinNPT).

Die Ergebnisse sind in der folgenden Tabelle aufgeführt, wobei das beste und das zweitbeste Ergebnis fett bzw. unterstrichen markiert sind. Gesamt,DePLM übertrifft die Basismodelle und bestätigt den Vorteil der Kombination evolutionärer Informationen mit experimentellen Daten bei Aufgaben des Protein-Engineerings.


Leistung von DePLM und Basismodellen bei Protein-Engineering-Aufgaben


Es ist erwähnenswert, dass ESM-MSA und Tranception aufgrund der Einführung der multiplen Sequenzalignmentierung (MSA) stärkere evolutionäre Informationen zeigen als ESM-1v. Durch den Vergleich ihrer Ergebnisse zeigten die Forscher, dass hochwertige evolutionäre Informationen die Ergebnisse nach der Feinabstimmung deutlich verbesserten. Doch selbst mit diesen Verbesserungen erreicht ihre Leistung noch immer nicht das Niveau von DePLM. Die Forscher stellten außerdem fest, dassDePLM übertrifft ProteinNPT und unterstreicht die Wirksamkeit des vorgeschlagenen Rauschunterdrückungstrainingsverfahrens.

Bewertung der Generalisierungsfähigkeit: Eliminieren Sie den Einfluss irrelevanter Faktoren und verbessern Sie die Leistung

Um die Generalisierungsfähigkeit von DePLM weiter zu bewerten, verglichen die Forscher es anschließend mit vier selbstüberwachten Baselines (ESM-1v, ESM-2 und TranceptEVE), zwei strukturbasierten Baselines (ESM-IF und ProteinMPNN) und drei überwachten Baselines (CNN, ESM-1v und fein abgestimmte Versionen von ESM-2).

Die Ergebnisse sind in der folgenden Tabelle dargestellt. Das beste und das zweitbeste Ergebnis sind fett bzw. unterstrichen markiert. Man kann beobachten, dassDePLM übertrifft durchweg alle Basismodelle – ein weiterer Beweis für die Unzulänglichkeit von Modellen, die sich ausschließlich auf ungefilterte evolutionäre Informationen stützen und dadurch häufig die Zieleigenschaft verwässern, indem mehrere Ziele gleichzeitig optimiert werden. Durch die Eliminierung der Auswirkungen irrelevanter Faktoren verbessert DePLM die Leistung erheblich.


Beurteilung der Generalisierungsfähigkeit

Darüber hinaus schneiden die Basismodelle ESM1v (FT) und ESM2 (FT), die darauf trainiert sind, die Differenz zwischen den vorhergesagten und den experimentellen Werten zu minimieren, viel schlechter ab als DePLM. Dieses Ergebnis zeigt, dassDurch die Optimierung des Modells im Ordinationsraum wird die Verzerrung durch einen bestimmten Datensatz reduziert, was zu einer besseren Generalisierung führt.Darüber hinaus stellten die Forscher fest, dass strukturelle Informationen zu Proteinen zur Stabilität und Bindung beitragen, während evolutionäre Informationen die Anpassungsfähigkeit und Aktivitätseigenschaften verbessern.

Zusammenfassend lässt sich sagen, dass eine große Anzahl experimenteller Ergebnisse zeigt, dassDePLM übertrifft bei der Vorhersage von Mutationseffekten nicht nur die aktuellen hochmodernen Modelle, sondern weist auch starke Generalisierungsfähigkeiten auf neue Proteine auf.

Das Team der Zhejiang-Universität vertieft weiterhin PLMs und fördert die Entwicklung der Bioindustrie

Das Protein-Big-Language-Modell kann die Struktur, Funktion und Interaktion von Proteinen genau vorhersagen und stellt die modernste Anwendung der KI-Technologie in der Biologie dar. Durch das Erlernen der Muster und Strukturen von Proteinsequenzen können die Funktion und Morphologie von Proteinen vorhergesagt werden, was für die Entwicklung neuer Medikamente, die Behandlung von Krankheiten und die biologische Grundlagenforschung von großer Bedeutung ist.

Angesichts dieses vielversprechenden neuen Forschungsgebiets hat sich das Team der Zhejiang-Universität in den letzten Jahren weiter damit befasst und eine Reihe innovativer wissenschaftlicher Forschungsergebnisse erzielt.

Im März 2023 entwickelten Professor Huajun Chen, Dr. Qiang Zhang und ihr Forschungsteam des AI Interdisciplinary Center ein Vortrainingsmodell für die Proteinsprache. Die zugehörige Forschung zu diesem Modell wurde auf der ICLR International Conference on Machine Learning Representation 2023 unter dem Titel „Multi-level Protein Structure Pre-training with Prompt Learning“ veröffentlicht. Es ist erwähnenswert, dass die ICLR-Konferenz eine der Top-Konferenzen im Bereich Deep Learning ist und von zwei Turing-Award-Gewinnern, Yoshua Bengio und Yann LeCun, gegründet wurde.

In dieser Arbeit war das Forschungsteam das erste weltweit, das einen proteinorientierten Prompt-Lernmechanismus vorschlug und das PromptProtein-Modell konstruierte.Drei Vortrainingsaufgaben wurden entwickelt, um die primären, tertiären und quartären Strukturinformationen von Proteinen in das Modell einzuspeisen. Um Strukturinformationen flexibel nutzen zu können, schlugen die Forscher, inspiriert von der Prompt-Technologie in der natürlichen Sprachverarbeitung, ein promptgesteuertes Vortrainings- und Feinabstimmungsframework vor. Experimentelle Ergebnisse zu Aufgaben zur Vorhersage von Proteinfunktionen und zur Proteintechnik zeigen, dass die vorgeschlagene Methode eine bessere Leistung als herkömmliche Modelle aufweist.

Bis 2024 hat das Team weitere Fortschritte in seiner Forschung erzielt. Um der Herausforderung zu begegnen, dass PLMs zwar Aminosäuresequenzen gut verstehen, aber die menschliche Sprache nicht verstehen,Das Team von Chen Huajun und Zhang Qiang von der Zhejiang-Universität hat das InstructProtein-Modell vorgeschlagen, das Wissensanweisungen verwendet, um Proteinsprache und menschliche Sprache aufeinander abzustimmen, die wechselseitigen Generierungsfähigkeiten zwischen Proteinsprache und menschlicher Sprache untersucht, die Lücke zwischen den beiden Sprachen effektiv überbrückt und die Fähigkeit demonstriert, biologische Sequenzen in große Sprachmodelle zu integrieren.

Die Forschung mit dem Titel „InstructProtein: Aligning Human and Protein Language via Knowledge Instruction“ wurde von der ACL 2024-Hauptkonferenz angenommen. Experimente mit einer großen Anzahl bidirektionaler Protein-Text-Generierungsaufgaben zeigen, dass InstructProtein die Leistung bestehender hochmoderner LLMs übertrifft.

Klicken Sie hier, um den ausführlichen Bericht anzuzeigen: Ausgewählt für die ACL2024-Hauptkonferenz | InstructProtein: Angleichung der Proteinsprache an die menschliche Sprache durch Wissensanweisungen

Papieradresse: 

https://arxiv.org/abs/2310.03269

Tatsächlich sind diese Artikel nur ein Aspekt der Arbeit des Teams. Berichten zufolge hoffen Forscher am interdisziplinären KI-Zentrum der Zhejiang-Universität, mithilfe großer Modelle der Protein- oder Molekularsprache wissenschaftliche Versuchsroboter wie iBioFoundry und iChemFoundry anzutreiben. Dabei kombinieren sie reale Sensorsignale, Proteine und menschliche Sprache, um eine Verbindung zwischen Sprache und Wahrnehmung herzustellen.

Das Team freut sich darauf, seine Forschungsergebnisse künftig weiter zu industrialisieren und weitere wertvolle Untersuchungen und Unterstützungen für die Entwicklung neuer Medikamente sowie für die Bereiche Leben und Gesundheit durchzuführen.

Quellen:

1.https://neurips.cc/virtual/2024/poster/95517

2.https://hic.zju.edu.cn/2023/0328/c56130a2733579/page.htm