Das Team Von Luo Xiaozhou Von Der Chinesischen Akademie Der Wissenschaften Schlug Das UniKP-Framework Vor, Ein Großes Modell + Maschinelles Lernen Zur Vorhersage Enzymkinetischer Parameter Mit Hoher Genauigkeit

Autor: Li Baozhu
Herausgeber: Sanyang
Das Team von Luo Xiaozhou vom Shenzhen Institute of Advanced Technology der Chinesischen Akademie der Wissenschaften schlug ein Rahmenwerk zur Vorhersage enzymkinetischer Parameter (UniKP) vor, um die Vorhersage einer Vielzahl verschiedener enzymkinetischer Parameter zu erreichen.
Wie wir alle wissen, erfolgt der Stoffwechsel in Organismen durch eine Vielzahl chemischer Reaktionen. Wenn diese Reaktionen in vitro durchgeführt werden, sind für ihre Durchführung normalerweise strenge Bedingungen wie hohe Temperaturen, hoher Druck, starke Säuren und starke Laugen erforderlich.
In lebenden Organismen können Stoffwechselreaktionen jedoch unter äußerst milden Bedingungen effizient ablaufen, hauptsächlich aufgrund wichtiger organischer Katalysatoren – Enzyme.
Als wichtiger Wissenspunkt im Biologieunterricht der Oberstufe haben sich die Eigenschaften von Enzymen wahrscheinlich tief in unser Gedächtnis eingeprägt – hohe katalytische Effizienz, starke Spezifität, milde Wirkungsbedingungen usw. Noch wichtiger ist, dass Enzyme eng mit vielen menschlichen Krankheiten verbunden sind und auch zur Diagnose und Behandlung eingesetzt werden können. Seit langer Zeit werden die Struktur und Funktion von Enzymmolekülen eingehend erforscht und gleichzeitig die Faktoren untersucht, die enzymatische Reaktionen beeinflussen.
Die Wissenschaft, die sich mit der Geschwindigkeit von Enzymreaktionen und den Mechanismen beschäftigt, durch die verschiedene Faktoren die Geschwindigkeit von Enzymreaktionen beeinflussen, wird als „Enzymreaktionskinetik“ bezeichnet.In der Forschung wird die katalytische Effizienz eines Enzyms in einer bestimmten Reaktion üblicherweise anhand enzymkinetischer Parameter gemessen.
Zu den kinetischen Parametern enzymkatalysierter Reaktionen gehört die Enzymumsatzzahl kKatze , Michaelis-Konstante KM und katalytischer Wirkungsgrad kKatze / KM Derzeit basieren Parametermessungen hauptsächlich auf Nassexperimenten, aber dieser Prozess ist zeitaufwändig und kostspielig, was zu einer relativ kleinen Datenbank experimentell gemessener enzymkinetischer Parameter führt. Der Mangel an Daten wird die Entwicklung der nachgelagerten Bereiche Systembiologie und Stoffwechseltechnik einschränken.
In Anbetracht dessenDas Team von Luo Xiaozhou vom Institute of Synthesis des Shenzhen Institutes of Advanced Technology der Chinesischen Akademie der Wissenschaften schlug ein Framework zur Vorhersage kinetischer Parameter von Enzymen (UniKP) vor, das auf einem vorab trainierten großen Sprachmodell und einem Modell des maschinellen Lernens basiert.
Dieses Framework kann eine Vielzahl von enzymkinetischen Parametern vorhersagen, indem es nur die Aminosäuresequenz eines bestimmten Enzyms und die Strukturinformationen seines Substrats verwendet. Darüber hinaus berücksichtigte das Forschungsteam weitere Umweltfaktoren und schlug ein auf UniKP basierendes Doppelschicht-Framework EF-UniKP vor, das eine genauere Vorhersage der enzymkinetischen Parameter ermöglichte.

Link zum Artikel:
https://www.nature.com/articles/s41467-023-44113-1
GitHub-Link:
https://github.com/Luo-SynBioLab/UniKP
Folgen Sie dem offiziellen Konto und antworten Sie mit „UniKP“, um das vollständige Dokument herunterzuladen
Repräsentative Datensätze validieren den Modellwert
Das Forschungsteam wählte vier repräsentative Datensätze aus, um die Leistung und den Wert von UniKP zu überprüfen.
Zuerst ist der DLKcat-Datensatz,Die Forscher untersuchten 16.838 Proben, darunter 7.822 einzigartige Proteinsequenzen und 2.672 einzigartige Substrate von 851 Organismen. Der Datensatz wird im Verhältnis 9:1 in Trainingsdatensatz und Testdatensatz aufgeteilt.
Als nächstes folgen die pH- und Temperaturdatensätze.Der pH-Datensatz enthält 636 Proben, bestehend aus 261 einzigartigen Enzymsequenzen und 331 einzigartigen Substraten; Der Temperaturdatensatz enthält 572 Proben, bestehend aus 243 einzigartigen Enzymsequenzen und 302 einzigartigen Substraten. Der Datensatz wird im Verhältnis 8:2 in Trainingsdatensatz und Testdatensatz aufgeteilt.
Die dritte ist die Michaelis-Konstante (KM) Datensatz,Es besteht aus 11.722 Proben, darunter Enzymsequenzen, molekulare Fingerabdrücke von Substraten und entsprechende KM Wert. Der Datensatz wird im Verhältnis 8:2 in Trainingsdatensatz und Testdatensatz aufgeteilt.
Der vierte ist kKatze/KM Datensatz,Enthält 910 Enzymsequenzen, Substratstrukturen und ihre entsprechenden kKatze/KM Eine Auswahl von Werten.
Zwei Schlüsselkomponenten: Darstellungsmodul + Modul für maschinelles Lernen
Das vom Forschungsteam vorgeschlagene UniKP kann die Vorhersage von k basierend auf gegebenen Enzymsequenzen und Substratstrukturen verbessern.Katze , KM und kKatze / KM Genauigkeit. Das UniKP-Framework besteht aus zwei Hauptkomponenten – einem Darstellungsmodul und einem Modul für maschinelles Lernen.
Die Rolle des Darstellungsmoduls besteht darin, komplexe Enzym- und Substratinformationen in Vektordarstellungen umzuwandeln, die vom maschinellen Lernmodell verstanden und verarbeitet werden können.Dadurch können nachfolgende Machine-Learning-Module Vorhersagen und Analysen durchführen.

Unter ihnen verwendet das Modul zur Darstellung von Enzymsequenzen das vortrainierte Sprachmodell ProtT5-XL-UniRef50, um die Enzyminformationen zu kodieren. Jede Aminosäure wird durch das Modell in einen 1.024-dimensionalen Vektor umgewandelt und durch Mittelwert-Pooling verarbeitet. Schließlich wird ein 1.024-dimensionaler Vektor generiert, der die Sequenzinformationen des gesamten Enzyms darstellt (wie in der Abbildung oben gezeigt).

Das Modul zur Darstellung der Substratstruktur verwendet das vortrainierte Sprachmodell SMILES Transformer, um die Informationen des Substrats zu kodieren. Die Substratstruktur wird in das SMILES-Format konvertiert und dann wird durch einen vorab trainierten SMILES-Konverter ein 1.024-dimensionaler Vektor generiert. Die erste Ausgabe der letzten Schicht und der vorletzten Schicht wird gemittelt und maximal zusammengefasst, um schließlich einen 1.024-dimensionalen Vektor zu generieren, der die Strukturinformationen des Substrats darstellt (wie in der Abbildung oben gezeigt).

Für das Modul zum maschinellen Lernen:Das Forschungsteam verglich 16 verschiedene Modelle des maschinellen Lernens und zwei repräsentative Modelle des Deep Learning – Convolutional Neural Networks und Recurrent Neural Networks.
Die Ergebnisse zeigen, dass die integrierten Modelle eine bessere Leistung aufweisen, insbesondere Random Forests und Extra Trees, die deutlich besser sind als andere Modelle, unter denen Extra Trees die beste Leistung erbringen (R²=0,65). Wie in der Abbildung oben gezeigt, verwendet das maschinelle Lernmodell den verketteten Darstellungsvektor als Eingabe und generiert das vorhergesagte kKatze , KM oder kKatze / KM Wert.

Darüber hinaus berücksichtigten die Forscher Umweltfaktoren, erstellten ein optimiertes Vorhersage-Framework und validierten es anhand von zwei Datensätzen, die pH- und Temperaturinformationen abdecken (wie in der Abbildung oben dargestellt).

Schließlich passt UniKP die Stichprobengewichtsverteilung durch verschiedene Neugewichtungsmethoden an, um optimierte Vorhersageergebnisse für Vorhersageaufgaben mit hohem Wert zu erzielen (wie in der Abbildung oben dargestellt).
Doppelschichtrahmen——EF-UniKP
Als zweischichtiges Framework besteht EF-UniKP aus einer Basisschicht und einer Metaschicht, wie in der folgenden Abbildung dargestellt:

Die Basisschicht enthält zwei unabhängige Modelle – UniKP und Revised UniKP. UniKP verwendet den Verbindungsdarstellungsvektor von Protein und Substrat als Eingabe, während Revised UniKP den Verbindungsdarstellungsvektor von Protein und Substrat kombiniert mit dem pH- oder Temperaturwert als Eingabe verwendet.
Die Metaebene besteht aus einem linearen Regressionsmodell unter Verwendung des vorhergesagten k von UniKP und Revised UniKPKatze Wert zur Vorhersage des endgültigen kKatze Wert.
R²-Wert ist höher als 20%, EF-UniKP gewinnt
Das Forschungsteam von kKatze Das UniKP-Framework wird anhand des DLKcat-Datensatzes, der 16.838 Beispiele enthält, für die Vorhersageaufgabe validiert. In 5 Runden der Validierung des zufällig aufgeteilten Testsatzes erreichte UniKP einen R²-Wert von 0,68, der 20% höher ist als DLKcat. Darüber hinaus ist im Test der höchste Wert von DLKcat um 16% niedriger als der niedrigste Wert von UniKP, was die Robustheit von UniKP weiter beweist.

Anschließend erstellte das Forschungsteam zur Auswertung von EF-UniKP zwei Datensätze mit pH- und Temperaturinformationen und teilte diese im Verhältnis 8:2 in Trainings- und Testsätze auf.
Auf dem TestsatzEF-UniKP schneidet besser ab als UniKP und Revised UniKP.Im pH-Datensatztest ist der R² von EF-UniKP 20% bzw. 8% höher. Im Temperaturdatensatztest ist der R² von EF-UniKP um 26% bzw. 2% höher. In den Tests, bei denen mindestens eines der Enzyme und Substrate nicht im Trainingssatz enthalten war, waren die R²-Werte von EF-UniKP im pH-Datensatz um 13% und 10% höher als die von UniKP und Revised UniKP und im Temperaturdatensatz um 16% und 4% höher.

Butterfly-Modell: Integration von wissenschaftlicher Forschung und Industrie
Die Shenzhen Institutes of Advanced Technology der Chinesischen Akademie der Wissenschaften (im Folgenden „Shenzhen Advanced Institute“ genannt) hinter der Forschungsgruppe von Luo Xiaozhou wurden im Februar 2006 gemeinsam von der Chinesischen Akademie der Wissenschaften, der Stadtregierung von Shenzhen und der Chinesischen Universität Hongkong gegründet. Sie bestehen aus acht Forschungsinstituten:
* Shenzhen Institute of Advanced Integrated Technology, Chinesische Akademie der Wissenschaften, Chinesische Universität Hongkong
* Institut für Biomedizintechnik und Gesundheitstechnik
* Institut für Advanced Computing und Digital Engineering
* Institut für Biomedizin und Technologie
* Institut für Gehirnkognition und Gehirnerkrankungen
* Institut für Synthetische Biologie
* Institut für fortgeschrittene Materialwissenschaft und Werkstofftechnik
* Forschungsinstitut für Kohlenstoffneutralitätstechnologie (vorbereitend)
Dr. Luo Xiaozhou schloss 2019 seine Postdoc-Forschung an der University of California, Berkeley ab, kehrte nach China zurück und trat offiziell als Forscher dem Institute of Synthetic Biology des Shenzhen Institute of Advanced Technology bei. Im selben Jahr wurde „Senruis Bio“, bei dem er einer der Partner war, in Shenzhen offiziell gegründet. Der Schwerpunkt des Unternehmens liegt auf der Forschung und Entwicklung synthetischer Biologietechnologie und ihrer innovativen Anwendungen in verschiedenen Bereichen. Im März 2022 schloss das Unternehmen eine Finanzierungsrunde A in Höhe von fast 100 Millionen Yuan ab.
Der Entwicklungspfad von Dr. Luo Xiaozhou, der eine Balance zwischen „wissenschaftlicher Forschung“ und „Industrie“ herstellt, steht im vollkommenen Einklang mit der Mission der Shenzhen Advanced Institutes. Laut der EinleitungDas Shenzhen Institute of Advanced Technology erforschte das „0-1-10-∞-Schmetterlingsmodell“.Dies wird auch bei Senruis Biotech gut praktiziert.
Nachdem Senruis entdeckt hatte, dass Flüssigkautschuk HVR und Cannabinoid CBD dieselben unabhängigen Chassiszellen mit geistigem Eigentum teilen können, verwendete das Unternehmen mehrere Prozessmethoden, die im Frühstadium für die Transformation von Bierhefe entwickelt wurden, kombiniert mit seiner internen Bibliothek synthetischer biologischer Komponenten.Die Produktion von Flüssigkautschuk HVR wurde innerhalb von 6 Monaten auf ein kommerziell rentables Niveau gesteigert.
Unter ihnen arbeitete Dr. Luo Xiaozhou mit seinem Mentor, dem Akademiker Jay D. Keasling, der auch einer der Gründer von Senruis ist, zusammen und erschloss 2019 erfolgreich den biologischen Syntheseweg von Cannabinoiden, der die Grundlage für deren Kommerzialisierung bildete.
Luo Xiaozhou sagte, dass es zwei Schlüsselfaktoren für die schnelle Industrialisierung von Pipelines gebe:Erstens die tiefe Integration von Wissenschaft und Industrie.Die akademische Gemeinschaft baut effektiv 0-1-Synthesewege für Verbindungen auf, die von der Industrie benötigt werden.Der zweite Grund sind standardisierte Produktionsprozesse und Werkzeuge.In drei Phasen, von 0-1 akademischer Forschung über 1-10 technische Forschung und Entwicklung bis hin zu 10 – unbegrenzter industrieller Skalierung, werden wir eine Produktionslinie für synthetische Biologie aufbauen und die Forschungs- und Entwicklungseffizienz von 1-10 verbessern.
Quellen:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw