HyperAI

Neuer Durchbruch in Der Impfstoffforschung Und -entwicklung: Das Beihang-Team Schlägt Eine Neue Methode Zur Vorhersage Der Immunogenität Viraler Antigene Vor: VirusImmu

特色图像

Infektionskrankheiten sind schwere Krankheiten, die die Gesundheit und das Leben des Menschen ernsthaft gefährden. Von den bislang über 4.000 entdeckten Viren können mehr als 100 eine direkte Bedrohung für die Gesundheit und das Leben des Menschen darstellen. Noch erschreckender ist die Tatsache, dass ständig neue Krankheitserreger entdeckt werden. Medienberichten zufolge sind etwa die Hälfte der 32 neuen Infektionskrankheiten, die in den letzten 20 Jahren weltweit entdeckt wurden, in meinem Land aufgetreten.

Daher ist die Entwicklung von Impfstoffen besonders wichtig. Im langen Prozess der Impfstoffentwicklung besteht die erste Aufgabe darin, schützende Immunogene zu identifizieren. Methoden des maschinellen Lernens (ML) sind bei der Analyse großer Datenmengen, wie beispielsweise mikrobieller Proteome, äußerst effizient und können die Kosten experimenteller Arbeiten zur Entwicklung neuer Impfstoffkandidaten erheblich senken.

Li Jing und andere von der Beihang-Universität entwickelten eine Ensemble-Methode des maschinellen Lernens (Viruslmmu) zur Vorhersage der Immunogenität viraler Antigene, die großes Potenzial bei der Vorhersage der Immunogenität viraler Proteinfragmente zeigte und Impfstoffentwicklern umfassendere Werkzeuge an die Hand gab. Verwandte Inhalte wurden auf bioRxiv veröffentlicht.

Papieradresse:
https://www.biorxiv.org/content/10.1101/2023.11.23.568426v1
Folgen Sie dem offiziellen Konto und antworten Sie mit „Immunität“, um das Dokument herunterzuladen

Datensatz: Hunderte von Antigenen im Training und Test

Die Trainings- und Testdatensätze bestanden aus 100 Antigenen (positiver Satz) und 100 Nicht-Antigenen (negativer Satz).

Adresse zum Herunterladen des Datensatzes:

https://github.com/zhangjbig/VirusImmu/tree/main/data

Der Prozess des Sammelns von Datensätzen, Erstellens von Modellen und Auswählens von Merkmalen

Bei den Schutzantigenen handelt es sich um verifizierte Proteinantigene, die in der Literatur gescreent wurden. Die entsprechenden Proteinsequenzen stammen von UniProt (Universal Protein) und NCBI (National Center for Biotechnology Information). Proteine mit vollständigen Fragmenten werden bevorzugt.
Hinweis: UniProt ist die informations- und ressourcenreichste Proteindatenbank.

Ungeschützte Proteinsequenzen (nicht antigen) wurden zufällig aus dem Virus Bioinformatics Resource Center ausgewählt.

Die Forscher verwendeten BLAST (Basic Local Alignment Search Tool), um zu bestätigen, dass das Nicht-Antigen keine Sequenzidentität mit dem Antigen aufwies, und wendeten eine Strategie zur Kreuzvalidierung mit Zufallsstichproben an, um einen Testsatz aus den positiven und negativen Datensätzen von 20% zu erhalten. Es wurden fünfzig Randomisierungen durchgeführt.
Hinweis: BLAST ist ein Suchtool zum Vergleich biologischer Makromolekülsequenzen.

Der externe Datensatz wurde von den Forschern unabhängig erstellt und bestand aus 59 Antigenen und 54 Nicht-Antigenen, wobei die Antigensequenzen manuell aus den Datenbanken UniProt und Protegen zusammengestellt und die Nicht-Antigensequenzen mit derselben Trainingsmethode zufällig aus UniProt ausgewählt wurden.

Aufbau des besten Ensemble-Modells VirusImmu

Im letzten Jahrzehnt wurden Methoden zur Vorhersage der Immunogenität von Proteinantigenen in zwei Hauptkategorien unterteilt: Filterung und Klassifizierung. Die repräsentativste Methode zur Klassifizierungsvorhersage ist VaxiJen, das eine Methode zur Vorhersage schützender bakterieller Antigene vorschlägt.

VaxiJen konzentriert sich jedoch auf die Vorhersage der bakteriellen Immunogenität. Um die Einschränkungen von VaxiJen zu überwinden, schlugen Forscher der Beihang-Universität eine integrierte maschinelle Lernmethode namens VirusImmu zur Vorhersage der viralen Immunogenität vor.

Anders als VaxiJen, das nur einen einzigen herkömmlichen Regressionsalgorithmus verwendet oder einfach auf Mehrheitswahl basiert, verwendet VirusImmu eine Soft-Voting-Methode, um die Leistung von acht Modellen des maschinellen Lernens bei der Vorhersage der Antigen-Immunogenität durch eine Strategie der Kreuzvalidierung mit Zufallsstichproben zu bewerten.

Die Forscher führten insgesamt 50 Runden randomisierter Experimente durch und in jeder Runde wurde der Datensatz im Verhältnis 8:2 in Trainingssatz und Testsatz aufgeteilt. Der Trainingssatz wurde zum Trainieren jedes Modells verwendet und dann wurden die trainierten Modelle auf ihre Immunogenitätsvorhersage im Testsatz ausgewertet.

Durchschnittliche ROC-Statistiken für 8 häufig verwendete Modelle des maschinellen Lernens

Die durchschnittliche ROC-Statistik von 50 Runden randomisierter Experimente zeigte, dass RF die stärkste Vorhersagekraft hatte.

Um die Vorhersagekraft des Modells für die Immunogenität zu verbessern,Die Forscher erstellten einen Soft-Voting-Ensemble-Klassifikator (VirusImmu) basierend auf den ersten drei Modellen (RF, XGBoost und kNN).Die Vorhersagen von RF, XGBoost und kNN werden gewichtet und kombiniert, um die Summe der gewichteten Wahrscheinlichkeiten zu erhalten.

Um die Gewichte für RF, XGBoost und kNN zu bestimmen, zählten die Forscher alle möglichen Gewichte für jedes dieser Modelle auf (insgesamt 232), erhöhten die Gewichte in Schritten von 0,05 von 0 auf 1 und verwendeten eine ROC-Analyse, um die Leistung der Modelle bei unterschiedlichen Gewichten zu bewerten.

Die Ergebnisse zeigen, dass VirusImmu jedes einzelne Testset-Modell übertrifft.

VirusImmu bietet hervorragende Leistung unabhängig von der Länge der Proteinsequenz

* Vergleichsexperiment 1: Leistungsvergleich zwischen VirusImmu und VaxiJen

VaxiJen ist eine der wenigen Methoden, die die physikochemischen Eigenschaften von Proteinsequenzen nutzt, um die Immunogenität vorherzusagen. Im Gegensatz zu VirusImmu verwendet Vaxijen einen einzelnen traditionellen Regressionsalgorithmus oder Mehrheitswahlverfahren. Daher verglichen die Forscher die Leistung von VirusImmu mit VaxiJen.

Im Testsatz beträgt die AUC (Fläche unter der Kurve) von VirusImmu 0,782 und die AUC von VaxiJen 0,75. Die durchschnittliche ROC-Kurve zeigt, dass VirusImmu besser ist als VaxiJen (Konfidenzintervall ist 95%).

* Vergleichsexperiment 2: Leistungsvergleich von VirusImmu mit RF, kNN und XGBoost

Um die Leistung von VirusImmu weiter zu validieren, haben die Forscher unabhängig voneinander einen externen Testsatz mit 59 Antigenen und 54 Nicht-Antigenen zusammengestellt.

Die ROC-Kurve zeigt, dass VirusImmu (AUC=0,712) RF (AUC=0,676) und kNN (AUC=0,699) übertrifft und seine Leistung der von XGBoost (AUC=0,717) ähnelt. VaxiJen schnitt beim externen Testsatz am schlechtesten ab (AUC=0,609).

Zusamenfassend,VirusImmu lieferte im Vergleich zu acht häufig verwendeten ML-Vorhersagemethoden und VaxiJen sowohl im Testsatz als auch im externen Testsatz stabilere Vorhersagen zur Proteinimmunogenität.

* Vergleichsexperiment 3: Leistungsvergleich von VirusImmu, NetBCE und EpiDope

Die Forscher verglichen außerdem die Leistung von VirusImmu mit der von zwei kürzlich veröffentlichten Vorhersagemethoden, NetBCE und EpiDope. NetBCE kann die Immunogenität nur von Proteinsequenzen mit weniger als 24 Aminosäuren vorhersagen.VirusImmu kann sowohl lange als auch kurze Proteinsequenzfragmente berücksichtigen. Obwohl EpiDope das Embedding Language Model (ELMo) Deep Neural Network (DNN) und das Long Short-Term Memory (LSTM) DNN kombiniert und einen AUC von 0,667 erreicht, ist die Leistung auch schlechter als bei VirusImmu (AUC=0,712).

Leistungsvergleich zwischen VirusImmu und anderen Modellen

* Vergleichsexperiment 4: Robustheitsvergleich zwischen Virusimmu und anderen Modellen

Um die Robustheit aller Modelle zu testen, führten die Forscher 50 Runden zufälliger Stichproben durch, wobei sie jeweils etwa 301 TP3T-Antigen- und Nicht-Antigenproben aus dem externen Testsatz verwendeten. VirusImmu erzielt in Bezug auf AUC und F1-Score eine bessere Leistung als VaxiJen.
Hinweis: Der F1-Score ist der harmonische Mittelwert aus Präzision und Rückruf des Modells.

Da die Vorhersagekraft des Modells durch die Länge der Proteinsequenz beeinträchtigt werden kann, gruppierten die Forscher den externen Testsatz in fünf Gruppen mit einer inkrementellen Schrittweite von 200 bp in der Proteinsequenzlänge und führten dann 50 Runden einer Zufallsstichprobenentnahme durch.

Sowohl XGBoost als auch Virusimmu erzielten in den externen Validierungsdaten eine gute Leistung (die beiden besten). Die AUC von XGBoost ist etwas besser als die von Virusimmu, aber sein F1-Score ist schlechter. Auch bei Proteinen kleiner als 200 bp und 600–800 bp schneidet XGBoost schlechter ab als Virusimmu.

Da es sich bei den meisten Epitopen um Proteinfragmente mit einer Länge von weniger als 200 handelt, bietet Virusimmu bessere Anwendungsszenarien als XGBoost.

Gesamt,Viruslmmu basiert nicht auf Sequenzvergleichen und eliminiert den Einfluss der Proteinsequenzlänge. Im Vergleich zu ähnlichen Vorhersagetools eignet es sich für die Vorhersage von Proteinen und Peptiden mit höherer Genauigkeit und größerer Vielseitigkeit.

Um die Zuverlässigkeit von VirusImmu weiter zu demonstrieren, wählten die Forscher SARS-CoV-2-Epitope aus der veröffentlichten Literatur aus, um die Fähigkeit von VirusImmu zur Vorhersage der Immunogenität zu überprüfen.

Die Ergebnisse zeigen, dassVon den 15 Epitopen, die in den vier Arbeiten behandelt wurden, wurden 14 von VirusImmu als Antigene vorhergesagt, was die gute Leistung von VirusImmu bei der Vorhersage der Immunogenität viraler Proteine bestätigte.

VirusImmu hilft bei der Identifizierung von Peptid-Impfstoffkandidaten gegen das Afrikanische Schweinepestvirus (ASFV)

Da es weder einen wirksamen Impfstoff noch eine wirksame Behandlung gegen das Afrikanische Schweinepestvirus gibt, müssen schützende Antigene identifiziert werden. Die Studie ergab, dass das ASFV-pp220-Polyprotein, das für die strukturelle Integrität des Virus von wesentlicher Bedeutung ist, Epitope enthält, die bei Schweinen starke Immunreaktionen auslösen können. Dies lässt darauf schließen, dass es für die Anwendung in der Impfstoffentwicklung geeignet ist.

Zur Identifizierung antigener Epitope verwendeten die Forscher 17 der gängigsten Methoden, darunter BCPred, den Immune Epitope Database (IEDB)-Server, und sagten 1.376 Kandidaten für lineare B-Zell-Epitope aus dem pp220-Protein voraus.

Die Forscher verwendeten strenge Kriterien, um antigene Epitope herauszufiltern, und basierend auf den Vorhersageergebnissen von VaxiJen≤1,3 blieben 29 Epitope übrig, von denen 12 als Nichtallergene und Nichttoxine klassifiziert wurden. VirusImmu sagte voraus, dass 8 der 12 Epitope antigen seien.

Messung der Bindung von Antigen-B-Zell-Epitopen an Antikörper

Um die Bindung der 8 Epitope an ASFV-Serum-IgG-Antikörper zu bestätigen, sammelten die Forscher gemischte Seren von 5 ASFV-infizierten Schweinen und 5 gesunden Schweinen.

Der indirekte ELISA-Test bestätigte sieben antigene lineare B-Zell-Epitope, eines davon reagierte jedoch spezifisch und dosisabhängig mit Serum-Antikörpern von ASFV-infizierten Schweinen, nicht jedoch bei gesunden Schweinen, während ein willkürliches Kontrollpeptid („RRRRRRRRRRRRRRRR“) keine Wirkung hatte. Das von VirusImmu als nicht-antigenisch vorhergesagte Epitop („VLEEQSKIDPNF“) zeigte ebenfalls keine spezifische Bindung an Serum-Antikörper.

Diese Ergebnisse liefern ein überzeugendes Beispiel für die Anwendung von VirusImmu in realen Szenarien.

KI-Technologie beschleunigt Impfstoffentwicklung

Mit der rasanten Entwicklung von Wissenschaft und Technologie hat die KI neue Durchbrüche im Bereich der Biomedizin erzielt, darunter Alphaford 2, entwickelt von Deepmind, das erfolgreich die Proteinstruktur vorhersagte, und später neue Technologien wie generatives Protein. Im Prozess der Arzneimittelentwicklung spielt die KI-Technologie eher eine Rolle als Hilfsmittel.

Alphaford 2 Architektur

Erstens kann KI zur Analyse und Vorhersage viraler Genome verwendet werden.Durch Deep Learning und Mustererkennung großer Mengen viraler Genomdaten kann KI die Mutations- und Evolutionstrends des Virus genau vorhersagen und Wissenschaftlern dabei helfen, die wichtigsten Proteinziele des Virus schnell zu identifizieren und entsprechende Impfstoffe zu entwickeln.

Zweitens spielt KI eine wichtige Rolle in der Arzneimittelscreeningphase der Impfstoffentwicklung.Der herkömmliche Arzneimittelscreeningprozess ist in der Regel zeitaufwändig, arbeitsintensiv und unsicher. Durch groß angelegte Simulationsexperimente und Data Mining kann KI jedoch die Wechselwirkung zwischen Medikamenten und Viren schnell bewerten, potenzielle Wirkstoffkandidaten herausfiltern und die Effizienz der Impfstoffentwicklung verbessern.

Darüber hinaus kann KI zur Optimierung des Designs klinischer Impfstoffstudien eingesetzt werden.Durch die Simulation umfangreicher experimenteller Daten kann KI Wissenschaftlern dabei helfen, die Reaktion und Wirkung von Impfstoffen im menschlichen Körper vorherzusagen und zu bewerten, mögliche Sicherheitsprobleme und Nebenwirkungen im Voraus zu erkennen und das Design von Experimenten zu optimieren.

Auf dem Markt schenken multinationale Pharmaunternehmen der KI-Technologie tendenziell mehr Aufmerksamkeit. Laut Statistiken des KI-Beratungsunternehmens Deep Pharma Intelligence beliefen sich die Gesamtinvestitionen in 800 KI-Pharmaunternehmen weltweit im Dezember 2022 auf 5,93 Milliarden US-Dollar, eine 27-fache Steigerung in 9 Jahren.

Welchen weiteren Herausforderungen steht die KI-Technologie bei der Entwicklung von Impfstoffen und anderen Medikamenten gegenüber? Laut Li Wenwen, Assistenzprofessor am Institut für Informationsmanagement und Business Intelligence der School of Management der Universität Fudan, sind für die Entwicklung von KI-Algorithmen riesige Datenmengen zum Lernen erforderlich. Im Bereich der Arzneimittelforschung und -entwicklung umfassen diese Daten die relevanten Strukturen von Proteinen, verschiedene Aminosäuresequenzen usw.

Die Schwierigkeit bei der Anwendung von KI-Technologie in der Arzneimittelforschung und -entwicklung liegt derzeit in der Datenerfassung und -sammlung. Labordaten sind teuer, Pharmaunternehmen geben nicht genügend Daten weiter und grundlegende, gekennzeichnete Daten sind rar. Dies sind alles Einschränkungen.