HyperAI

Ein Großer Durchbruch Im PLM! Die Neuesten Ergebnisse Der Shanghai Jiao Tong University Und Des Shanghai AI Lab Wurden Für NeurIPS 24 Ausgewählt. ProSST Integriert Effektiv Proteinstrukturinformationen

特色图像

Protein ist ein Schlüsselmolekül des Lebens. Seine Reihenfolge bestimmt seine Struktur und seine Struktur bestimmt seine Funktion. Die Funktion von Proteinen hängt eng mit ihrer dreidimensionalen Struktur zusammen. In den vergangenen Jahrzehnten haben Wissenschaftler mithilfe von Techniken wie der Röntgenkristallographie und der Kernspinresonanz Tausende von Proteinstrukturen entschlüsselt und so wichtige Hinweise zum Verständnis der Proteinfunktionen erhalten. Angesichts der Millionen von Proteinen ist die Aufgabe, die Strukturen aller Proteine zu analysieren, jedoch äußerst mühsam.

Inspiriert von vortrainierten Sprachmodellen im Bereich der natürlichen Sprachverarbeitung entstanden vortrainierte Proteinsprachmodelle (PLMs).Durch Lernen auf der Grundlage riesiger unmarkierter Proteinsequenzdaten ist PLM in der Lage, die komplexen Muster und Interaktionen von Proteinsequenzen zu erfassen, was zu revolutionären Fortschritten bei der Vorhersage der Proteinfunktion, der Strukturanalyse und der Identifizierung von Protein-Protein-Interaktionen geführt hat.

Die meisten PLMs konzentrieren sich jedoch auf die Modellierung von Proteinsequenzen und ignorieren die Bedeutung struktureller Informationen, hauptsächlich aufgrund des Mangels an Strukturdaten. Mit dem Aufkommen von Technologien wie AlphaFold und RoseTTAFold wurde die Genauigkeit der Proteinstrukturvorhersage erheblich verbessert, und Forscher haben begonnen zu untersuchen, wie Proteinstrukturinformationen effektiv in PLM integriert werden können, um strukturbewusste, vorab trainierte Sprachmodelle in großem Maßstab zu trainieren.

So haben beispielsweise die Forschungsgruppe von Professor Hong Liang vom Institut für Naturwissenschaften/Fakultät für Physik und Astronomie/Zhangjiang-Institut für Höhere Studien/Fakultät für Pharmazie der Jiaotong-Universität Shanghai, der Assistenzforscher Zhou Bingxin von der Jiaotong-Universität Shanghai und der Nachwuchsforscher Tan Pan vom Shanghai Artificial Intelligence Laboratory vor Kurzem erfolgreich ein vortrainiertes Proteinsprachenmodell mit Strukturerkennungsfähigkeiten entwickelt – ProSST.

Insbesondere wird das Modell anhand eines großen Datensatzes von 18,8 Millionen Proteinstrukturen vortrainiert und wandelt Proteinstrukturen in strukturierte Tokensequenzen um, die zusammen mit Aminosäuresequenzen in das Transformer-Modell eingegeben werden. Durch die Übernahme eines entwirrten Aufmerksamkeitsmechanismus kann ProSST diese beiden Arten von Informationen effektiv integrieren und damit bestehende Modelle bei überwachten Lernaufgaben wie der Vorhersage der thermischen Stabilität, der Vorhersage der Metallionenbindung, der Vorhersage der Proteinlokalisierung und der Vorhersage von GO-Annotationen deutlich übertreffen.

Die Forschung mit dem Titel „ProSST: Protein Language Modeling with Quantized Structure and Disentangled Attention“ wurde für NeurIPS 2024 ausgewählt.

Forschungshighlights:

* Diese Studie schlägt einen Proteinstrukturquantisierer vor, der die Proteinstruktur in eine Reihe diskreter Strukturelemente umwandeln kann. Diese diskretisierten Strukturelemente können die lokalen Strukturinformationen von Rückständen in Proteinen effektiv charakterisieren.

* Diese Studie schlug einen entkoppelten Aufmerksamkeitsmechanismus vor, um die Beziehung zwischen der Aminosäuresequenz eines Proteins und der dreidimensionalen Struktur zu erlernen und so eine effiziente Informationsintegration zwischen der Strukturdiskretisierungssequenz und der Aminosäuresequenz zu fördern.

* Im Vergleich zu anderen großen Protein-Vortrainingsmodellen wie der ESM-Serie und SaProt beträgt die Anzahl der Parameter von ProSST nur 110 Millionen, was viel kleiner ist als die 650 Millionen der klassischen ESM-Serie. Allerdings hat ProSST bei fast allen Protein-Downstream-Aufgaben die beste Leistung gezeigt, was die Überlegenheit des ProSST-Modellarchitekturdesigns widerspiegelt.

* ProSST belegt den ersten Platz im ProteinGym Benchmark, der größten Zero-Shot-Mutationseffekt-Vorhersageplattform. Im neuesten ProteinGym handelt es sich um das erste Open-Source-Modell, das eine Spearman-Korrelation für die Vorhersage der Zero-Shot-Mutationsleistung von über 0,5 erreicht.

Papieradresse:
https://neurips.cc/virtual/2024/poster/96656
Folgen Sie dem offiziellen Konto und antworten Sie mit „ProSST“, um das vollständige PDF zu erhalten

Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:
https://github.com/hyperai/awesome-ai4s

Basierend auf dem branchenweit gängigsten unbeaufsichtigten Pre-Training-Datensatz, der 18,8 Millionen Proteinstrukturen abdeckt

Um ein unbeaufsichtigtes Vortraining von ProSST zu erreichen, verwendete das Forschungsteam hauptsächlich die folgenden Datensätze:

* AlphaFoldDB-Datensatz:Eine reduzierte Version von 90% wurde aus mehr als 214 Millionen Proteinstrukturen ausgewählt, insgesamt 18,8 Millionen Strukturen, von denen 100.000 Strukturen zufällig als Validierungssatz ausgewählt wurden, um die Perplexität während der Trainingsphase zu überwachen und anzupassen.

* CATH43-S40-Datensatz:Es enthält 31.885 Proteinkristalldomänen, die mithilfe der 40%-Sequenzähnlichkeit dedupliziert wurden. Nach dem Entfernen von Strukturen, denen Schlüsselatome (wie Cα und N) fehlen, verbleiben 31.270 Datensätze, aus denen 200 Strukturen zufällig als Validierungssatz ausgewählt werden, um die Modellleistung zu überwachen und zu optimieren.

* CATH43-S40 lokaler Strukturdatensatz:Es besteht aus lokalen Strukturen, die aus dem CATH43-S40-Datensatz extrahiert wurden. Durch die Konstruktion einer Sterngraphenmethode werden 4.735.677 lokale Strukturen für die Einbettungsdarstellung des Strukturcodierers und die Clusteranalyse des Strukturcodebuchs extrahiert.

* ProteinGYM-Benchmark-Datensatz:Es dient der Bewertung der Fähigkeit von ProSST, Effekte von Nullprobenmutationen vorherzusagen. Es umfasst 217 experimentelle Analysen, von denen jede die Sequenz- und Strukturinformationen des Proteins enthält. Besonderes Augenmerk wird auf 66 Datensätze gelegt, die sich auf die thermische Stabilität konzentrieren. Als Indikatoren für die Leistungsbewertung werden Spearman-Koeffizient, Top-Recall und NDCG verwendet.

ProSST: PLM mit strukturbewussten Funktionen, einschließlich zweier Schlüsselmodule

Der in dieser Studie entwickelte ProSST (Protein Sequence-Structure Transformer) ist ein vortrainiertes Proteinsprachenmodell mit strukturbewussten Fähigkeiten. Wie in der Abbildung unten gezeigt,ProSST besteht im Wesentlichen aus zwei Modulen:Das Strukturquantisierungsmodul und das Transformer-Modell mit entwirrter Sequenz-Struktur-Aufmerksamkeit.

ProSST-Modellarchitektur

Modul zur Strukturquantifizierung: Serialisieren und quantifizieren Sie die Proteinstruktur in eine Reihe von Strukturelementen

Das Ziel des Strukturquantifizierungsmoduls besteht darin, die lokale Struktur von Rückständen in einem Protein in diskrete Markierungen umzuwandeln. Zunächst wird die lokale Struktur durch einen vortrainierten Strukturcodierer in einen dichten Vektor codiert. Anschließend weist ein vortrainiertes K-Means-Clustermodell der lokalen Struktur basierend auf dem codierten Vektor eine Kategoriebezeichnung zu. Schließlich werden den Resten Klassenbezeichnungen als Strukturtoken zugewiesen.

* Im Vergleich zur Gesamtproteinstruktur ist die lokale Strukturbeschreibung detaillierter

Der Prozess der Strukturquantifizierung

Insbesondere wurde in dieser Studie ein geometrisches Vektorperzeptron (GVP) als lokaler Strukturencoder verwendet. Wie in Abbildung A unten dargestellt, wurde in dieser Studie das GVP mit einem Decoder integriert, der ein positionsbewusstes mehrschichtiges Perzeptron (MLP) enthält, um ein Autoencoder-Modell zu bilden. Das gesamte Modell wurde mithilfe von denominationierten, vortrainierten Zielproteinen trainiert und nach dem Training mit dem CATH-Datensatz verwendeten die Forscher nur die durchschnittliche gepoolte Ausgabe des Encoders als endgültige Darstellung der Struktur.

Training des Struktur-Encoders

Als nächstes quantisiert der lokale Struktur-Encoder dieser Studie, wie in Abbildung B unten gezeigt, den dichten Vektor, der die Proteinstruktur darstellt, in diskrete Tags. Zu diesem Zweck verwendeten die Forscher den Struktur-Encoder GVP, um die lokalen Strukturen aller Rückstände im CATH-Datensatz in einen kontinuierlichen latenten Raum einzubetten, und wandten dann den K-Means-Algorithmus an, um K-Schwerpunkte in diesem latenten Raum zu identifizieren, die das Struktur-Codebuch bilden.

Lokale Strukturclusterung und -beschriftung

Schließlich konstruieren wir für den Rest an Position i in der Proteinsequenz zunächst einen Graphen Gi basierend auf seiner lokalen Struktur und betten ihn dann mithilfe des Struktur-Encoders GVP in einen kontinuierlichen Vektor ri ein. Im Allgemeinen kann, wie in Abbildung C unten gezeigt, die gesamte Proteinstruktur in eine Reihe von Struktur-Token serialisiert und quantisiert werden.

Umwandlung von Proteinstrukturen in Strukturelementsequenzen

Sequenz-Struktur-entkoppelte Aufmerksamkeit: Ermöglicht dem Modell, die Beziehung zwischen Residuen und Residuen sowie zwischen Residuen und Strukturen zu erlernen

Diese Studie wurde vom DeBerta-Modell inspiriert, dessen Ziel es ist, durch Entkopplung der Aufmerksamkeit die Beziehung zwischen der Restsequenz (Aminosäuresequenz) und der Struktursequenz sowie der relativen Position zu erlernen, sodass das Modell Proteinsequenz- und Strukturinformationen verarbeiten und durch die Entkopplung die Leistung und Stabilität des Modells verbessern kann.

Insbesondere kann der i-te Rest in der Primärsequenz eines Proteins durch drei Elemente dargestellt werden: Ri stellt die Kodierung des Aminosäuresequenz-Tokens dar, Sich  Stellt die lokale Strukturtokenkodierung von Aminosäuren dar, während Pich|j  Die Token-Kodierung des i-ten Rests an Position j. Wie in der folgenden Abbildung gezeigt, umfasst der von Sequenz und Struktur entkoppelte Aufmerksamkeitsmechanismus dieser Studie fünf Typen: Rest-zu-Rest (R zu R), Rest-zu-Struktur (R zu S), Rest-zu-Position (R zu P), Struktur-zu-Rest (S zu R) und Position-zu-Rest (P zu R). Dadurch kann das Modell die komplexe Beziehung zwischen Proteinsequenz und -struktur detaillierter erfassen.

ProSST-Modellarchitektur

ProSST ist führend in der Leistung und die Einbeziehung struktureller Informationen verbessert die Möglichkeiten zur Modellcharakterisierung erheblich

Um die Wirksamkeit von ProSST bei der Vorhersage der Effektivität von Zero-Shot-Mutanten zu überprüfen, wurde es im Rahmen der Studie mit einer Reihe von Spitzenmodellen verglichen, darunter sequenzbasierte Modelle, Struktur-Sequenz-Modelle, inverse Faltungsmodelle, Evolutionsmodelle und Ensemblemodelle.

Wie in der folgenden Tabelle gezeigt, Im ProteinGYM-Benchmark übertrifft ProSST alle Vergleichsmodelle und erreicht die beste Stabilität. Darüber hinaus weist ProSST (-Struktur) eine mit anderen Sequenzmodellen vergleichbare Leistung auf, was bestätigt, dass die verbesserte Leistung von ProSST hauptsächlich auf die effektive Integration struktureller Informationen zurückzuführen ist.
* ProSST (-Struktur) enthält keine Strukturinformationsmodule

Vergleich der Leistung von ProSST und anderen Modellen bei der Vorhersage von Zero-Shot-Mutationen

Für das überwachte Lernen wurden in dieser Studie vier wichtige Protein-Downstream-Aufgaben ausgewählt: Vorhersage der thermischen Stabilität (Thermostabilität), Vorhersage der Metallionenbindung (Metal Ion Binding), Vorhersage der Proteinlokalisierung (DeepLoc) und Vorhersage der GO-Annotation (MF/BP/CC) und ProSST wurde mit anderen Proteinsprachenmodellen wie ESM-2, ESM-1b, SaProt, MIF-ST, GearNet usw. verglichen. Die Ergebnisse sind in der folgenden Tabelle 2 dargestellt.ProSST erzielte von allen Modellen die besten Ergebnisse und erreichte in allen 6 Einstellungen 5 erste Plätze und 1 zweiten Platz.

Vergleich der überwachten Feinabstimmung bei nachgelagerten Aufgaben

Proteinsprachenmodell: Eine Brücke zwischen Big Data und Biowissenschaften

Seit der Veröffentlichung großer Sprachmodelle wie ChatGPT sind vortrainierte Modelle (PLMs), die auf umfangreichen Proteinsequenzen basieren, zu einem heißen Forschungsthema im Bereich der Biowissenschaften geworden. Derzeit ist die PLM-Forschung hauptsächlich in zwei Richtungen unterteilt:

* Retrieval-enhanced PLM: Dieser Modelltyp integriert während der Trainings- oder Vorhersagephase Informationen zur Mehrfachsequenzalignmentierung (MSA), wie z. B. MSATransformer und Tranception, um die Vorhersageleistung zu verbessern.

* Multimodales PLM: Im Gegensatz zu Modellen, die nur Sequenzinformationen verwenden, integriert multimodales PLM zusätzliche Informationen wie die Proteinstruktur. Beispielsweise kann das in diesem Artikel beschriebene ProSST-Modell die Darstellungsfähigkeit des Modells verbessern, indem die Strukturtokensequenz mit der Aminosäuresequenz verschmolzen wird.

Im Hinblick auf suchgestütztes PLMIm April dieses Jahres brachte ein Forschungsteam der Fudan-Universität und anderer Institutionen PLMSearch auf den Markt, eine auf Sequenzeingaben basierende Methode zur Suche nach homologen Proteinen. Diese Studie kann vorab trainierte Proteinsprachenmodelle verwenden, um tiefe Darstellungen zu erhalten und strukturelle Ähnlichkeiten vorherzusagen. Die entsprechende Forschung wurde in Nature Communication veröffentlicht.

Link zum Artikel:

https://doi.org/10.1038/s41467-024-46808-5

Im Hinblick auf multimodales PLMDas Team von Professor Huajun Chen an der Zhejiang-Universität hat kürzlich ein neues Denoising-Protein-Sprachmodell (DePLM) zur Proteinoptimierung vorgeschlagen. Dieses Modell kann die Leistung von Proteinoptimierungsaufgaben durch die Optimierung evolutionärer Informationen verbessern. Die entsprechenden Ergebnisse wurden erfolgreich für die Top-Konferenz NeurIPS 24 ausgewählt.

Weitere Details: Ausgewählt für NeurIPS 24! Das Team der Zhejiang-Universität schlug ein neues Proteinsprachenmodell DePLM zur Rauschunterdrückung vor, das Mutationseffekte besser vorhersagt als SOTA-Modelle

Da immer wieder bahnbrechende Studien dieser Art veröffentlicht werden, entwickelt sich PLM zunehmend zu einem leistungsstarken Tool für die Erforschung unbekannter Bereiche der Biowissenschaften. Es birgt großes Potenzial in Bereichen wie der Vorhersage von Proteinfunktionen, Interaktionen und Phänotyp-Assoziationen und dürfte neue Ideen für die Behandlung von Krankheiten und die Verbesserung des menschlichen Lebens liefern.