Die Forschungsgruppe Von Yu Xiang an Der Shanghai Jiao Tong University Veröffentlichte Ein Übertragbares Deep-Learning-Modell, Um Mehrere Arten Von RNA-Modifikationen Zu Identifizieren Und Den Rechenaufwand Deutlich Zu Senken

Im Jahr 2021 erlangten mRNA-Impfstoffe aufgrund des lautstarken Aufrufs von Gao Fu, einem Akademiker der Chinesischen Akademie der Wissenschaften, über Nacht Berühmtheit und wurden während des Ausbruchs des neuen Coronavirus zur Hoffnung der Menschen. Heute ist diese besondere Vergangenheit Geschichte, doch die RNA-Modifikation hinter den mRNA-Impfstoffen entwickelt sich immer noch rasant weiter.
Die sogenannte RNA-Modifikation ist eine wichtige Art der posttranskriptionellen Regulation, die in großem Umfang an verschiedenen posttranskriptionellen Verarbeitungs- und Stoffwechselwegen der RNA beteiligt sein kann.
Die RNA-Modifikation verdient Aufmerksamkeit, da sie eine lebenswichtige biologische Funktion beim Wachstum und der Entwicklung eukaryotischer Organismen spielt.Neuere Studien haben beispielsweise ergeben, dass die destabilisierende Wirkung von N⁶-Methyladenosin (m⁶A) in embryonalen Stammzellen von Säugetieren mit einer Reihe von Krankheiten in Zusammenhang steht und dass 5-Methylcytosin (m⁵C) mit der Toleranz von Reis gegenüber hohen Temperaturen zusammenhängt.
Allerdings gibt es bei RNA viele Arten von Modifikationen und bis heute wurden in natürlicher RNA mehr als 160 Arten von Modifikationen entdeckt. Bisher konnte mit der von Oxford Nanopore Technologies (ONT) entwickelten Nanopore Direct RNA Sequencing (DRS)-Technologie in Kombination mit Deep-Learning-Methoden die Modifikationsidentifizierung einzelner Basen realisiert werden.Allerdings ist es mit dieser Methode schwierig, mehrere Modifikationstypen gleichzeitig in einer einzigen Probe zu erkennen.
Als Antwort auf die oben genannten Fragen veröffentlichten die Forschungsgruppe von Yu Xiang, einem außerordentlichen Professor mit Lehrstuhl an der School of Life Sciences and Technology der Shanghai Jiao Tong University, und das Team von Yang Jun/Wang Hongxia vom Shanghai Chenshan Botanical Garden eine Forschungsarbeit mit dem Titel „Transfer learning enables identification of multiple types of RNA modifications using nanopore direct RNA sequencing“ in Nature Communications.Um die Identifizierung mehrerer Arten von RNA-Modifikationen in DRS zu ermöglichen, wurde ein übertragbares Deep-Learning-Modell namens TandemMod entwickelt.
Forschungshighlights:
* Unter der Voraussetzung, dass die gleiche Leistung gewährleistet ist, werden die Rechenkosten, wie z. B. die Menge der Trainingsdaten und die Modelltrainingszeit, erheblich reduziert
* TandemMod bietet wichtige technische Unterstützung für die Identifizierung verschiedener Arten von RNA-Modifikationsstellen und Epitranskriptomstudien bei Tieren, Pflanzen und Mikroorganismen
* TandemMod kann auch zum Nachweis künstlich modifizierter RNA wie RNA-Impfstoffen verwendet werden

Papieradresse:
https://www.nature.com/articles/s41467-024-48437-4
Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:
https://github.com/hyperai/awesome-ai4s
Dataset: Gezieltes Training mit mehreren Datensätzen
Um die Leistung des TandemMod-Modells zu trainieren und zu bewerten, verwendete das Forschungsteam mehrere Datensätze für Experimente.
Erste,Das Forschungsteam verwendete den vom Nookaew-Labor generierten ELIGOS-In-vitro-Transkriptionsdatensatz.Fünf Basismerkmale (Mittelwert, Median, Standardabweichung, Signallänge und Basenqualität) wurden für sechs modifizierte Basen (m¹A, m⁶A, m⁵C, hm⁵C, m⁷G und Ψ) berechnet und mit den nicht modifizierten Basen verglichen.
Zweitens entschied sich das Forschungsteam, die Leistung von TandemMod anhand der beiden häufigsten Modifikationen in eukaryotischer mRNA, m⁵C und m⁶A, zu untersuchen.Die Forscher trainierten das TandemMod m⁵C-Modell anhand des Curlcake-Datensatzes.Der Datensatz stammt aus in vitro transkribierten Sequenzen, die alle möglichen 5-Mere enthalten, und ist im Verhältnis 4:1 in Trainings- und Testsätze unterteilt.

Um gleichzeitig das Problem zu lösen, dass die aus synthetischen In-vitro-Sequenzen transkribierte RNA nicht die gesamte Bandbreite natürlicher Sequenzen abdecken kann, führte das Forschungsteam eine In-vitro-Transkription an einer Reis-cDNA-Bibliothek mit einem T7-Promoter durch und erhielt Tausende von Transkripten mit unterschiedlichen Modifikations-Tags. Nach dem Hinzufügen von PolyA-Schwänzen wurden vier Trainingssätze (m¹A, m⁶A, m⁵C und unveränderte Basen) durch DRS erstellt.Es wird In Vitro Apparent Transcriptome Dataset (IVET) genannt.
Modellarchitektur: Ein Deep-Learning-Framework
Darauf aufbauend nutzte das Forschungsteam die jeweils fünf Basen zugeordneten elektrischen Signale und deren statistischen Eigenschaften als Input, um das Transfer-Learning-Modell TandemMod zu trainieren, das mehrere Arten von RNA-Modifikationen gleichzeitig erkennen kann.

Wie in der Abbildung oben gezeigt,TandemMod besteht aus Datenvorverarbeitung, Modellvortraining und Transferlernen.
Das Vortraining des Modells besteht aus vier Hauptkomponenten:
* Eindimensionales Convolutional Neural Network (1D-CNN) zum Extrahieren lokaler Merkmale des ursprünglichen Stromstärkesignals;
* Bi-LSTM (Bi-LSTM), das verwendet wird, um langfristige Korrelationen zwischen benachbarten Signalen zu erfassen und die Fähigkeit zu verbessern, den Kontext in einem längeren Prozess zu verstehen;
* Aufmerksamkeitsmechanismus, der verwendet wird, um die Wichtigkeit jedes Merkmals zu verschiedenen Zeiten zu gewichten und die Fähigkeit des Modells zu verbessern, wichtige Signale zu erfassen;
* Der Klassifikator der vollständig verbundenen Schichten ist dafür verantwortlich, Vorhersagen auf Grundlage der kombinierten Informationen aller Merkmale zu treffen.
Darüber hinaus soll überprüft werden, ob Transferlernen auf DRS-Daten angewendet werden kann, um mehrere Arten von RNA-Modifikationen zu erkennen.Die Forscher trainierten TandemMod mit dem IVET m5C-Datensatz und erhielten ein vortrainiertes Modell.Im TandemMod-Modell fungiert die oberste Schicht als Merkmalsextraktor und die unterste Schicht als Klassifikator. Die Forscher froren die oberen Schichten des vortrainierten Modells ein und trainierten die unteren Schichten erneut mit dem ELIGOS-Trainingsset (hm5C, m7G, Ψ und I), um Klassifizierungsfehler zu minimieren.

Nach 2 Epochen erreichten alle Modelle eine hohe Genauigkeit.Die ROC-AUCs von hm⁵C, m⁷G, Ψ und I erreichten 0,98, 0,95, 0,96 bzw. 0,97. Wie in den Abbildungen a, b, c und d oben gezeigt.
Experimentelle Ergebnisse: TandemMod reduziert die Menge der Trainingsdaten und die Modelltrainingszeit erheblich
Während der experimentellen Phase verglich das Forschungsteam das TandemMod-Modell mit klassischen Algorithmen des maschinellen Lernens, um seine Leistung zu bewerten, nämlich XGBoost, Support Vector Machine (SVM) und k-Nearest Neighbor (KNN). Im Fall der Curlcake-Testdatensatz-m⁶A-Erkennung,TandemMod übertrifft andere Algorithmen mit einer Genauigkeit von 0,90.Ebenso erreichte TandemMod bei der Identifizierung von m⁵C eine Genauigkeit von 0,95, und dieser Vergleich unterstreicht die Wirksamkeit von TandemMod bei der Identifizierung von Modifikationen mithilfe von DRS-Daten.
TandemMod zeigte auch eine bessere Überlegenheit als Tombo und xPore bei der Identifizierung von Proben mit unterschiedlichen Modifikationsraten in vivo.Dies deutet darauf hin, dass TandemMod Proben mit unterschiedlichen Modifikationsraten genau vorhersagen kann, ohne dass negative Kontrollproben erforderlich sind.

Darüber hinaus verglich das Forschungsteam das TandemMod m⁶A-Modell auch mit tombo, nanom6A und m6Anet, wie in der obigen Abbildung dargestellt.
Beim ELIGOS-Ausschlagmotiv (RA oder G, HA oder C oder U) betrugen die ROC-AUCs von TandemMod, nanom6A und tombo 0,96, 0,88 bzw. 0,52. Auf dem ELIGOS DRACH-Motiv (DA, G oder U) betrugen die ROC-AUCs von TandemMod, m6Anet und Tombo 0,95, 0,71 bzw. 0,64.
Diese Ergebnisse zeigen, dassTandemMod wurde mit dem In-vitro-DRS-Datensatz trainiert und bietet unter allen vorhandenen Tools die genauesten Vorhersagen auf Leseebene.
Das Forschungsteam überprüfte die Klassifizierungsleistung, die erforderlichen Trainingsdaten und die Rechenressourcennutzung des Transferlernens des TandemMod m⁵C-Modells bei der m⁶A-Erkennung und verglich es mit dem TandemMod m⁶A-Modell der Standardinstanz. Die Ergebnisse zeigen, dass durch Transferlernen die Kosten, beispielsweise die Menge der Trainingsdaten und die Modelltrainingszeit, bei gleichbleibender Leistung erheblich gesenkt werden können.

Abschließend testete das Forschungsteam die Möglichkeit, das TandemMod-Modell auf neue Arten für die DRS-Datensequenzierung auszuweiten und überprüfte die Zuverlässigkeit von TandemMod anhand menschlicher Zelllinien (2 Knockout-Proben mit Modifikationsenzymen und 5 Wildtyp-Proben). Gleichzeitig verwendete das Forschungsteam TandemMod auch, um die epigenetischen Modifikationskarten von m⁶A, m⁵C und Ψ in Reissetzlingen unter hohem Salzstress abzubilden und die Co-Modifikation von m⁶A und m⁵C in mRNA und die Änderungen ihrer Modifikationsraten in Umgebungen mit hohem Salzgehalt aufzudecken. Wie im Bild oben gezeigt.
RNA-Modifikation öffnet neue Türen zur Erforschung des Lebens
Im Laufe der Jahrhunderte haben die Menschen nie aufgehört, das Leben zu erforschen. Nachdem die RNA-Welt-Hypothese aufgestellt wurde, ist das Argument, dass RNA der Ursprung des Lebens ist, zweifellos zu einer der derzeit überzeugendsten Antworten geworden. Seit der Entdeckung der ersten RNA-Modifikation im Jahr 1960 genießt sie seit langem höchste Priorität in der wissenschaftlichen Forschung und erfährt auch in jüngeren Studien weiterhin große Aufmerksamkeit.
Neben der Forschungsgruppe von Yu Xiang und dem Team von Yang Jun/Wang Hongxia in diesem Artikel sowie dem im Artikel erwähnten Unternehmen ONT gibt es viele weitere Teams und Unternehmen, die ebenfalls Forschung zur RNA-Modifikation betreiben.

So veröffentlichte beispielsweise das Team von Professor Meng Jia von der Xi'an Jiaotong-Liverpool University im Jahr 2021 einen Artikel mit dem Titel „Aufmerksamkeitsbasierte multilabel neuronale Netzwerke für die integrierte Vorhersage und Interpretation von zwölf weit verbreiteten RNA-Modifikationen“ in der Zeitschrift Nature Communications.
Papieradresse:https://www.nature.com/articles/s41467-021-24313-3
Der Artikel erwähnt ein MultiRM-Modell, das auf einem Multi-Label-Deep-Learning-Framework mit Aufmerksamkeitsmechanismus basiert.Es können nicht nur 12 weit verbreitete Transkriptomstellen gleichzeitig vorhergesagt werden, sondern es werden auch Schlüsselsequenzen im Vorhersageprozess extrahiert und analysiert. Dadurch wird eine starke Korrelation zwischen verschiedenen Arten von RNA-Modifikationen aufgedeckt, was zu einer umfassenderen Analyse und einem besseren Verständnis sequenzbasierter RNA-Modifikationsmechanismen beiträgt.

Zufälligerweise heißt es in einem 2021 in Nature Biotechnology veröffentlichten Artikel mit dem Titel „Identification of differential RNA modifications from nanopore direct RNA sequencing with xPore“,Das Forschungsteam verwendete xPore, um RNA-Modifikationen mit hoher Präzision aus Direct RNA-seq-Daten zu identifizieren und unterschiedliche Modifikationen und Expressionen aus einem einzigen Hochdurchsatzexperiment zu analysieren.
Papieradresse:https://www.nature.com/articles/s41587-021-00949-w
Diese Studien helfen uns, die Tür zur RNA-Welt weiter zu öffnen und ermöglichen es uns, den „wahren Sinn des Lebens“ weiter zu erforschen. Obwohl im Verlauf verschiedener Forschungsarbeiten noch viele Engpässe zu überwinden sind, haben die kontinuierlichen Herausforderungen der „Pioniere“ der RNA-Forschung bereits die Tür geöffnet.
Quellen:
1. https://news.sjtu.edu.cn/jdzh/2