HyperAI

KI Ermöglicht Historische Durchbrüche in Der RNA-Virusforschung. Die Sun Yat-sen University Und Andere Nutzten Deep-Learning-Modelle, Um Mehr Als 160.000 Neue Viren Zu Entdecken

特色图像

Anfang 2020 legte sich der Schatten des neuen Coronavirus schnell über die Welt. In diesem Wettlauf gegen die Zeit haben wir unzählige mutige Einzelpersonen und Teams erlebt, die den Schritt gewagt haben. Das Sozialsystem wurde immer wieder auf die Probe gestellt und auch im globalen öffentlichen Gesundheitswesen wurden Alarmglocken läuten.

Das Coronavirus wird vor allem deshalb gefürchtet, weil es ein RNA-Virus ist. Diesem Virustyp fehlt ein Fehlerkorrekturmechanismus während der Replikation und er ist anfällig für Mutationen. Diese Mutationsfähigkeit ermöglicht es RNA-Viren nicht nur, sich zwischen Arten auszubreiten und ihr Wirtsspektrum zu erweitern, sondern kann auch Veränderungen in der Pathogenität verursachen. Ein für den Menschen ursprünglich harmloses Virus kann durch Mutation pathogen werden und eine Krankheit verursachen. Da Menschen im Allgemeinen keine Immunität gegen solche mutierten Viren besitzen, kann es bei einer Mutation des Virus schnell zu einer großflächigen Epidemie kommen.

Obwohl Viren eng mit der menschlichen Gesundheit verbunden sind, gibt es beim Menschen nur mehr als 5.000 bekannte und bestätigte Virusarten, was nur die Spitze des Eisbergs ist. Herkömmliche Methoden zur Identifizierung von RNA-Viren basieren in hohem Maße auf dem Vergleich von Sequenzhomologien, d. h. die Identifizierung erfolgt durch den Vergleich der Sequenzähnlichkeiten zwischen unbekannten und bekannten Viren. Aber,Da RNA-Viren zahlreich und hochdifferenziert sind, ist es mit herkömmlichen Methoden schwierig, „Dunkle-Materie-Viren“ zu erfassen, denen Homologie fehlt oder die eine sehr geringe Homologie aufweisen.Dies schränkt die Effizienz der Erkennung neuer Viren ein.

In den letzten zehn Jahren hatten Methoden der künstlichen Intelligenz, insbesondere Deep-Learning-Algorithmen, erhebliche Auswirkungen auf verschiedene Forschungsbereiche der Biowissenschaften. Die Kombination aus KI und virologischer Forschung bietet dem Menschen neue Methoden, um die Schwierigkeiten der RNA-Virusidentifizierung zu überwinden.

kürzlich,Professor Shi Mang von der medizinischen Fakultät der Sun Yat-sen-Universität hat in Zusammenarbeit mit der Zhejiang-Universität, der Fudan-Universität, der China Agricultural University, der City University of Hong Kong, der Guangzhou-Universität, der Universität Sydney, dem Alibaba Cloud Feitian Laboratory usw. ein neues Deep-Learning-Modell namens LucaProt vorgeschlagen.Das Modell nutzt Cloud-Computing und KI-Technologie, um 180 Supergruppen und mehr als 160.000 neue RNA-Viren zu entdecken, was fast dem 30-fachen der Anzahl bekannter Viren entspricht. Dadurch wurde das Verständnis der Branche hinsichtlich der Vielfalt und Evolutionsgeschichte von RNA-Viren erheblich verbessert. Im Rahmen der Studie wurde außerdem das bislang längste RNA-Virusgenom mit einer Länge von 47.250 Nukleotiden entdeckt, was einen bedeutenden Durchbruch auf dem Gebiet der Identifizierung von RNA-Viren darstellt.

Die Studie wurde in der internationalen Fachzeitschrift Cell unter dem Titel „Using artificial intelligence to document the hidden RNA virosphere“ veröffentlicht.


Forschungshighlights:

* KI-gesteuerte Metagenomik-Mining-Technologie hat zu einer beispiellosen Ausweitung der globalen RNA-Virusvielfalt geführt

* Durch präzise Identifizierung wurde die Existenz von 161.979 potenziellen RNA-Virusarten und 180 viralen Supergruppen aufgedeckt

* Die Studie fand das bislang längste RNA-Virusgenom, das modulare Strukturmerkmale aufweisen könnte


Papieradresse:
https://doi.org/10.1016/j.cell.2024.09.027
Folgen Sie dem offiziellen Konto und antworten Sie mit „RNA-Virus-Identifizierung“, um das vollständige PDF zu erhalten

Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:

https://github.com/hyperai/awesome-ai4s

Datensatz: RNA-Viren decken verschiedene Ökosysteme auf der ganzen Welt ab und sind vielfältig

Im Rahmen dieser Studie wurde zunächst eine systematische Suche in Datenbanken wie NCBI SRA und CNGBdb durchgeführt, um die Vielfalt der RNA-Viren in verschiedenen Ökosystemen auf der ganzen Welt eingehend zu erforschen.


Wie in Abbildung A unten dargestellt, hat das Forschungsteam insgesamt 10.487 Datensätze aus globalen biologischen Umweltproben untersucht.Die gesamten Sequenzierungsdaten erreichten 51 TB und generierten mehr als 1,3 Milliarden Fragmente und 872 Millionen vorhergesagte Proteine.Mithilfe dieser großen Datensätze konnten die Forscher potenzielle virale RdRPs identifizieren und validieren und sie mithilfe zweier unterschiedlicher Strategien kreuzvalidieren.


Überblick über die RNA-Virusforschung

Durch die Kombination der Ergebnisse der beiden SuchstrategienDie Studie ergab 513.134 virale Genome, die 161.979 potenzielle virale Arten und 180 RNA-Virus-Supergruppen repräsentieren.Diese Entdeckung erweitert das in der Studie gewonnene Wissen über die Supergruppe der RNA-Viren erheblich und erhöht es um etwa das Neunfache und die Zahl der Virenarten um etwa das Dreißigfache.


Wie in Abbildung C unten gezeigt, wurden in dieser Studie die RdRP-Proteinsequenzen anderer Studien verglichen.Insgesamt wurden 70.458 neu identifizierte, möglicherweise einzigartige Virenarten entdeckt.

Virale Supergruppenanalyse der Studie

Die Studie enthüllte auch 60 bisher unerkannte und wenig erforschte Supergruppen,Diese Supergruppen haben bisher nur begrenzte Aufmerksamkeit erhalten. Besonders bemerkenswert ist, dass die Studie, wie in Abbildung D unten gezeigt, ergab, dass 23 dieser Supergruppen mit herkömmlichen Methoden der Sequenzhomologie nicht identifiziert werden konnten und als „Dunkle Materie“ der Virosphäre bezeichnet werden.

Verschiedene RNA-Viruscluster und RNA-Virussupergruppen

LucaProt: Ein datenbasiertes Deep-Learning-Modell, das ein neues Paradigma für die Virologieforschung eröffnet

Im Rahmen der Studie wurde ein datengesteuertes Deep-Learning-Modell entwickelt, LucaProt. Wie in Abbildung E unten dargestellt, besteht LucaProt aus fünf Kernmodulen: Input, Tokenizer, Encoder, Pooling und Output:

* Eingabe:Hauptsächlich verantwortlich für den Empfang von Aminosäuresequenzen;

* Tokenisierer:Hauptsächlich verantwortlich für die Konvertierung der Originalsequenz in ein Format, das das Modell verstehen kann. Dieses Modul beinhaltet die Konstruktion eines Korpus aus viralen und nicht-viralen RdRP-Sequenzen und die Erstellung eines Vokabulars mithilfe des BPE-Algorithmus, um Proteinsequenzen in einzelne Aminosäuren zu zerlegen und Strukturinformationen zu extrahieren;

* Encoder:Es ist hauptsächlich für die Konvertierung von Daten in zwei Darstellungsformen verantwortlich, eine ist die vom Transformer-Encoder generierte Sequenzdarstellungsmatrix und die andere ist die vom Strukturvorhersagemodell ESMFold generierte Strukturdarstellungsmatrix. Diese zweigleisige Darstellungsmethode löst nicht nur das Problem der knappen 3D-Strukturdaten, sondern verbessert auch die Rechenleistung.

* Pooling:Es ist hauptsächlich dafür verantwortlich, die Sequenzmatrix und die Strukturmatrix mithilfe der Value-Level Attention Pooling-Methode (VLAP) in zwei Vektoren umzuwandeln, die Dimension zu reduzieren und Merkmale für eine effektive Klassifizierung auszuwählen.

* Ausgabe:Es ist hauptsächlich für die Umwandlung dieser Vektoren in einen Wahrscheinlichkeitswert verantwortlich, der die Möglichkeit anzeigt, dass es sich bei der Probe um ein virales RdRP handelt. Die Sequenzen wurden anhand der Sigmoidfunktion als virales RdRP oder nicht-virales RdRP klassifiziert.

LucaProts RdRP-Identifizierungsmethode

Finale,Für die Studie wurde sorgfältig ein Datensatz mit 235.413 Proben erstellt.Ziel ist es, die Genauigkeit und Generalisierungsfähigkeit des Modells zu verbessern. Dieser Datensatz besteht aus 5.979 gut untersuchten viralen RdRPs (positive Proben) und 229.434 nicht-viralen RdRPs (negative Proben). Es basiert auf dem Transformer-Framework und einer Technologie zur Charakterisierung großer Modelle, kombiniert mit Proteinsequenzen und intrinsischen Strukturmerkmalen, und übertrifft herkömmliche Methoden hinsichtlich Genauigkeit, Effizienz und erkannter viraler Vielfalt.

Noch wichtiger ist, dass LucaProt nicht nur Sequenzdaten, sondern auch Strukturinformationen integriert, die für eine genaue Vorhersage der Proteinfunktion entscheidend sind.

Identifizierung einer Genomstruktur jenseits aller bisherigen Erkenntnisse: das längste jemals entdeckte RNA-Virusgenom

Um die Leistung von LucaProt umfassend zu bewerten, wurde im Rahmen der Studie eine eingehende Analyse aus mehreren Blickwinkeln durchgeführt, um eine umfassende Überprüfung seiner Genauigkeit und Effizienz zu gewährleisten:

* LucaProt Leistungsbewertung

* Überprüfen und bestätigen Sie, ob es sich bei der neu entdeckten Supergruppe von Viren um ein RNA-Virus handelt

* Analyse der Modularität und Flexibilität der RNA-Virusgenomstruktur

* Analyse der phylogenetischen Diversität von RNA-Viren

* Analyse der ökologischen Struktur globaler RNA-Viren

Fünf Methoden wurden gemeinsam auf ihre Leistungsfähigkeit hin bewertet, und LucaProt schnitt am umfassendsten ab

Um die Leistung von LucaProt zu bewerten, wurde es im Rahmen der Studie mit vier anderen Tools zur Virenerkennung verglichen. Die Ergebnisse zeigen, dass, wie in Abbildung A dargestellt,LucaProt weist die höchste Trefferquote auf und weist gleichzeitig eine relativ niedrige Falschpositivrate auf.

Analyse von Rückruf, Präzision und Falsch-Positiv-Rate

In Bezug auf die Rechenleistung benötigt LucaProt, wie in Abbildung E dargestellt, durchschnittlich 6 Datensätze, um Datensätze unterschiedlicher Länge zu verarbeiten.Zeigte eine angemessenere Effizienz.

Durchschnittliche Zeit berechnet basierend auf 6 Datensätzen unterschiedlicher Länge

Schließlich ermöglicht die in LucaProt integrierte erweiterte Transformer-Architektur die parallele Verarbeitung längerer Aminosäuresequenzen, wie in den Abbildungen FH gezeigt.Diese Architektur ist beim Erfassen von Beziehungen zwischen entfernten Teilen des Sequenzraums effektiver als die in anderen Bioinformatik-Tools üblicherweise verwendeten CNN/RNN-Encoder.

Vergleich der Vorhersageergebnisse basierend auf dem Testdatensatz

Validierung und strukturelle Charakterisierung einer neu entdeckten RNA-Virus-Supergruppe, von denen die meisten Sequenzähnlichkeiten mit bestehenden RdRPs aufweisen

Das Forschungsteam extrahierte und sequenzierte DNA und RNA aus 50 Umweltproben mit dem Ziel, das Vorhandensein von 115 in diesen Proben identifizierten viralen Supergruppen zu bestätigen. Wie in Panel B gezeigt, konnten nur RNA-Sequenzierungs-Reads erfolgreich Sequenzen zugeordnet werden, die mit viralen RdRPs assoziiert sind, während RNA- und DNA-Sequenzierungs-Reads Sequenzen zugeordnet wurden, die mit DNA-Viren, Retroviren (RTs) bzw. zellulären Organismen assoziiert sind.


Darüber hinaus bestätigte das Forschungsteam, wie in Abbildung C dargestellt, durch Anwendung der empfindlicheren RT-PCR-Methode 17 der 115 viralen Supergruppen. In diesen Supergruppen konnten durch DNA-Extraktion keine Sequenzen nachgewiesen werden, die für virales RdRP kodieren.Dies bestätigt weiter, dass es sich bei diesen viralen Supergruppen tatsächlich um RNA-Organismen handelt.

Bewertung der Authentizität von RNA-Virus-Supergruppen

Längstes jemals entdecktes RNA-Virusgenom

Bei einer eingehenden Analyse der Zusammensetzung und Struktur mutmaßlicher RNA-Virusgenome stellte die Studie fest, dass die Länge der meisten Genome zwar bei etwa 2.131 Nukleotiden lag, die Länge der Genome oder Genomfragmente, die RdRP kodieren, jedoch zwischen verschiedenen Supergruppen erheblich variierte. Insbesondere wurden im Rahmen der Studie extrem lange RNA-Virusgenome aus Bodenproben identifiziert (siehe Abbildung C), von denen eines 47,3 kb lang ist.Es ist eines der längsten bekannten RNA-Viren.In diesem ultralangen Genom entdeckte die Studie einen zusätzlichen ORF zwischen dem 50. Ende und der RdRP-Codierungsregion, dessen Funktion jedoch noch weiter untersucht werden muss.

Genomische Merkmale viraler Supergruppen

Die Ausbreitungsrate von RNA-Virusarten ist alarmierend, und in Umweltproben könnten noch höher differenzierte RNA-Viren vorhanden sein.

Die Studie ergab außerdem, dass, wie in der Abbildung unten gezeigt, die Anzahl der RNA-Virusarten im Vergleich zu den vom International Committee on Taxonomy of Viruses (ICTV) definierten Virusarten um das 55,9-fache und im Vergleich zu allen zuvor beschriebenen RdRP-Sequenzen um das 1,4-fache zunahm. Diese Ausbreitung zeigt sich insbesondere in der zunehmenden Vielfalt bekannter Virengruppen.

Phylogenetische Diversitätsanalyse von 31 RNA-Virus-Supergruppen

Bemerkenswerterweise wiesen einige Gruppen, die zuvor nur durch eine begrenzte Anzahl von Genomen repräsentiert waren, wie AstroPoty, Hypo, Yan und mehrere neu entdeckte Supergruppen, ein hohes Maß an phylogenetischer Vielfalt auf. Beispielsweise enthält SG023 1.232 Viren, SG025 466 Viren und SG027 475 Viren.Dies deutet darauf hin, dass in Umweltproben möglicherweise noch höher differenzierte RNA-Viren vorhanden sind.Wartet darauf, von uns entdeckt zu werden.

RNA-Viren weisen auch in extremen Umgebungen eine große Vielfalt auf

Die Studie zeigte, dass RNA-Viren an 1.612 Orten und in 32 Ökosystemen auf der ganzen Welt vorkommen.Wie in Abbildung A gezeigt, fand LucaProt selbst in ökologischen Proben, die bereits viele Male untersucht wurden, immer noch eine neue Virengruppe von 5-33.3%.Dies deutet darauf hin, dass die Vielfalt der RNA-Viren, insbesondere in Böden und Gewässern, noch nicht vollständig erforscht ist.


Die Studie verglich auch die Alpha-Diversität und Häufigkeit von RNA-Viren in verschiedenen Ökosystemen. Wie in den Abbildungen CD gezeigt, war die α-Diversität in Laubstreu-, Feuchtgebiets-, Süßwasser- und Abwasserumgebungen am höchsten, während die Häufigkeit in antarktischen Sedimenten, Meeresablagerungen und Süßwasserökosystemen am höchsten war. Vielfalt und Häufigkeit waren in Steinsalz- und Untergrundumgebungen am geringsten, was mit einer geringen Anzahl von Wirtszellen übereinstimmt. Extreme ökologische Subtypen wie heiße Quellen und hydrothermale Quellen weisen eine geringe RNA-Virusdiversität, aber eine mäßige Häufigkeit auf.

Die ökologische Struktur globaler RNA-Viren

Von der Wissenschaft zur Industrie: Revolutionäre Fortschritte der KI und Zukunftsaussichten in der RNA-Virusforschung

Tatsächlich hat sich die Anwendung künstlicher Intelligenz in der RNA-Virusforschung zu einem starken Trend in der wissenschaftlichen Forschung entwickelt. Ein Forschungsteam unter der Leitung von Professor Shi Mang von der Sun Yat-sen-Universität hat mithilfe der KI-Technologie bahnbrechende Fortschritte erzielt und mehr als 160.000 neue RNA-Viren entdeckt. Dieser Erfolg stellt einen wichtigen Meilenstein auf diesem Gebiet dar.


Doch bereits 2022 wird ein internationales Forschungsteam in Zusammenarbeit mit Wissenschaftlern aus den USA, Frankreich, der Schweiz und anderen LändernMithilfe der KI-Technologie für maschinelles Lernen wurden 5.500 neue RNA-Viren in Meerwasserproben auf der ganzen Welt identifiziert.Hat zum Aufbau der RNA-Virusdatenbank beigetragen. Diese Studie erweitert nicht nur den Umfang der ökologischen Forschung, sondern vertieft auch das Verständnis der Menschen für die Evolution von RNA-Viren und liefert neue Hinweise für die Erforschung der Evolution des frühen Lebens auf der Erde.

Die Forschungsergebnisse wurden in der Fachzeitschrift Science unter dem Titel „Cryptic and abundant marine viruses at the evolutionary origins of Earth's RNA virome“ veröffentlicht.
* Link zum Artikel:

https://doi.org/10.1126/science.abm5847

Natürlich ist die Anwendung von KI in der RNA-Virusforschung nicht auf die Erforschung unbekannter Bereiche beschränkt, sondern ist auch für die eingehende Forschung in bekannten Bereichen von entscheidender Bedeutung. Beispielsweise sind für COVID-19, ein RNA-Virus, fast 16 Millionen Genomsequenzen in der weltweit gemeinsam genutzten GISAID-Datenbank enthalten. Diese Daten liefern eine Fülle von Informationen für die Forschung, erfordern aber auch einen hohen Computer- und Personalaufwand, um die Entwicklung und Geschichte von COVID-19 zu analysieren.


Um dieser Herausforderung zu begegnen, entwickelten Wissenschaftler der Universitäten Manchester und Oxford Anfang 2024 ein KI-Framework, das in der Lage ist, neue und relevante COVID-19-Varianten zu identifizieren und zu verfolgen, was in Zukunft bei der Bekämpfung anderer Infektionen helfen könnte.Das Framework kombiniert Techniken zur Dimensionsreduzierung mit einem neuen interpretierbaren Clustering-Algorithmus, CLASSIX, der von Mathematikern der Universität Manchester entwickelt wurde, um potenziell riskante virale Genome schnell zu identifizieren.Die in den Proceedings of the National Academy of Sciences veröffentlichte Studie bietet einen neuen Ansatz zur Verfolgung der Virusentwicklung und könnte Auswirkungen auf traditionelle Methoden zur Verfolgung der Virusentwicklung haben.


Auch in der Industrie wird aktiv an der Erforschung von RNA-Viren gearbeitet. Aufgrund der hohen Mutationsrate von RNA-Viren während der Replikation war die Untersuchung von RNA-Viren und die Entwicklung von Impfstoffen schon immer eine Herausforderung. Im ersten Halbjahr 2023 nimmt die Anwendung der KI-gestützten Arzneimittelentwicklung zu.Wissenschaftler der kalifornischen Niederlassung von Baidu nutzten KI, um den mRNA-Impfstoff grundlegend zu optimieren. Dabei verbesserten sie nicht nur die Sequenz, sondern auch die Struktur und erhöhten so die Stabilität des Moleküls.Dadurch bleibt es über einen längeren Zeitraum im menschlichen Körper aktiv. Wenn sich die Sicherheit dieser Technologie erweist, wird sie zu einem wirkungsvollen Instrument für die Entwicklung einer neuen Generation von RNA-Impfstoffen und könnte auch neue Ideen für die Entwicklung von RNA-Medikamenten liefern.


In der zweiten Hälfte des Jahres 2023 veröffentlichte Deep Genomics „Ein RNA-Grundlagenmodell ermöglicht die Entdeckung von Krankheitsmechanismen und Therapiekandidaten“ und stellte damit sein einzigartiges künstliches Intelligenz-Grundlagenmodell BigRNA vor. BigRNA ist das erste Transformer-Neuralnetzwerk für RNA-Biologie und -Therapeutik mit fast 2 Milliarden anpassbaren Parametern und trainiert anhand von Tausenden von Datensätzen mit 1 Billion genomischen Signalen.Es handelt sich um eine neue Generation von Deep-Learning-KI, die auf eine Vielzahl unterschiedlicher Aufgaben zur Entdeckung von RNA-Therapeutika angewendet werden kann.


Auch mit Blick auf die Zukunft sind die Anwendungsaussichten von KI in der RNA-Virusforschung recht breit gefächert. Mit der Steigerung der Rechenleistung und der Verbesserung der Algorithmen könnte KI in der Lage sein, größere Datensätze zu verarbeiten und mehr unbekannte Virenpopulationen sowie deren Wirte und Übertragungswege zu identifizieren. Dies wird nicht nur das Verständnis der Menschen für die Rolle von RNA-Viren im Ökosystem vertiefen, sondern auch eine starke Unterstützung für die Prävention und Kontrolle möglicher Epidemien in der Zukunft bieten.

Darüber hinaus deutet die Anwendung künstlicher Intelligenz bei der Impfstoff- und Arzneimittelentwicklung darauf hin, dass den Menschen bald personalisiertere und präzisere medizinische Lösungen zur Verfügung stehen könnten, was neue Hoffnung für die globale öffentliche Gesundheitssicherheit bringt.