Nouvelle Avancée Dans La Recherche Et Le Développement De Vaccins : L'équipe De Beihang Propose Une Nouvelle Méthode Pour Prédire L'immunogénicité Des Antigènes Viraux, VirusImmu

Les maladies infectieuses sont un type de maladie grave qui met gravement en danger la santé et la vie humaines. Parmi les plus de 4 000 virus découverts à ce jour, plus de 100 peuvent menacer directement la santé et la vie humaines. Ce qui est encore plus effrayant, c’est que de nouveaux agents pathogènes sont constamment découverts. Selon les médias, sur les 32 nouvelles maladies infectieuses découvertes dans le monde au cours des 20 dernières années, environ la moitié sont apparues dans mon pays.
Le développement de vaccins est donc particulièrement important. Dans le long processus de développement d’un vaccin, la première tâche consiste à identifier les immunogènes protecteurs. Les méthodes d’apprentissage automatique (ML) sont très efficaces pour analyser les mégadonnées telles que les protéomes microbiens et peuvent réduire considérablement le coût du travail expérimental pour le développement de nouveaux candidats vaccins.
Li Jing et d'autres chercheurs de l'Université Beihang ont développé une méthode d'ensemble d'apprentissage automatique (Viruslmmu) pour prédire l'immunogénicité des antigènes viraux, qui a montré un grand potentiel dans la prédiction de l'immunogénicité des fragments de protéines virales et a fourni des outils plus complets aux développeurs de vaccins. Le contenu associé a été publié sur bioRxiv.

Adresse du document :
https://www.biorxiv.org/content/10.1101/2023.11.23.568426v1
Suivez le compte officiel et répondez « immunité » pour télécharger le document
Ensemble de données : Des centaines d'antigènes impliqués dans la formation et les tests
Les ensembles de données de formation et de test étaient constitués de 100 antigènes (ensemble positif) et de 100 non-antigènes (ensemble négatif).
Adresse de téléchargement du jeu de données :
https://github.com/zhangjbig/VirusImmu/tree/main/data

Les antigènes protecteurs sont des antigènes protéiques vérifiés, sélectionnés dans la littérature. Les séquences protéiques correspondantes proviennent d'UniProt (Universal Protein) et du NCBI (National Center for Biotechnology Information). Les protéines avec des fragments complets sont préférées.
Remarque : UniProt est la base de données de protéines la plus riche en informations et en ressources.
Les séquences protéiques non protégées (non antigéniques) ont été sélectionnées au hasard dans le Virus Bioinformatics Resource Center.
Les chercheurs ont utilisé BLAST (Basic Local Alignment Search Tool) pour confirmer que le non-antigène n'avait aucune identité de séquence avec l'antigène et ont adopté une stratégie de validation croisée par échantillonnage aléatoire pour obtenir un ensemble de tests à partir des ensembles de données positifs et négatifs de 20%. Cinquante randomisations ont été réalisées.
Remarque : BLAST est un outil de recherche de comparaison de séquences de macromolécules biologiques.
L'ensemble de données externes a été construit indépendamment par les chercheurs et se composait de 59 antigènes et 54 non-antigènes, où les séquences d'antigènes ont été rassemblées manuellement à partir des bases de données UniProt et Protegen, et les séquences non-antigènes ont été sélectionnées au hasard à partir d'UniProt dans la même méthode de formation.
Construire le meilleur modèle d'ensemble VirusImmu
Au cours de la dernière décennie, les méthodes de prédiction de l’immunogénicité des antigènes protéiques ont été divisées en deux catégories principales : le filtrage et la classification. La méthode la plus représentative pour la prédiction de classification est VaxiJen, qui propose une méthode de prédiction des antigènes bactériens protecteurs.
Cependant, VaxiJen se concentre sur la prédiction de l’immunogénicité bactérienne. Afin de surmonter les limites de VaxiJen, les chercheurs de l'Université Beihang ont proposé une méthode d'apprentissage automatique intégrée VirusImmu pour la prédiction de l'immunogénicité virale.
Contrairement à VaxiJen qui utilise uniquement un seul algorithme de régression traditionnel ou qui est simplement basé sur le vote majoritaire, VirusImmu adopte une méthode de vote souple pour évaluer les performances de huit modèles d'apprentissage automatique dans la prédiction de l'immunogénicité des antigènes grâce à une stratégie de validation croisée par échantillonnage aléatoire.
Les chercheurs ont mené un total de 50 séries d’expériences randomisées, et à chaque série, l’ensemble de données a été divisé en un ensemble d’entraînement et un ensemble de test dans un rapport de 8:2. L'ensemble d'entraînement a été appliqué pour former chaque modèle, puis les modèles formés ont été évalués pour la prédiction de l'immunogénicité sur l'ensemble de test.

Les statistiques ROC moyennes de 50 séries d’expériences randomisées ont montré que la RF avait la plus forte capacité prédictive.
Afin d’améliorer la capacité prédictive du modèle d’immunogénicité,Les chercheurs ont construit un classificateur d’ensemble de vote souple (VirusImmu) basé sur les trois premiers modèles (RF, XGBoost et kNN).Les prédictions de RF, XGBoost et kNN sont pondérées et combinées pour obtenir la somme des probabilités pondérées.
Pour déterminer les poids pour RF, XGBoost et kNN, les chercheurs ont énuméré tous les poids possibles pour chacun (232 au total), ont augmenté les poids de 0 à 1 par incréments de 0,05 et ont utilisé l'analyse ROC pour évaluer les performances des modèles à différents poids.
Les résultats montrent que VirusImmu surpasse chaque modèle de test individuel.
VirusImmu a d'excellentes performances quelle que soit la longueur de la séquence protéique
* Expérience comparative 1 : Comparaison des performances entre VirusImmu et VaxiJen
VaxiJen est l’une des rares méthodes qui utilise les propriétés physicochimiques des séquences protéiques pour prédire l’immunogénicité. Contrairement à VirusImmu, Vaxijen utilise un seul algorithme de régression traditionnel ou un vote majoritaire. Les chercheurs ont donc comparé les performances de VirusImmu avec celles de VaxiJen.
Dans l'ensemble de tests, l'ASC (aire sous la courbe) de VirusImmu est de 0,782 et l'ASC de VaxiJen est de 0,75. La courbe ROC moyenne montre que VirusImmu est meilleur que VaxiJen (l'intervalle de confiance est de 95%).
* Expérience comparative 2 : Comparaison des performances de VirusImmu avec RF, kNN et XGBoost
Pour valider davantage les performances de VirusImmu, les chercheurs ont collecté indépendamment un ensemble de tests externes contenant 59 antigènes et 54 non-antigènes.
La courbe ROC montre que VirusImmu (AUC=0,712) surpasse RF (AUC=0,676) et kNN (AUC=0,699), et ses performances sont similaires à celles de XGBoost (AUC=0,717). VaxiJen a obtenu les pires résultats sur l'ensemble de tests externes (ASC = 0,609).
en bref,VirusImmu a produit des prédictions d'immunogénicité des protéines plus stables par rapport à huit méthodes de prédiction ML couramment utilisées et à VaxiJen sur l'ensemble de tests et l'ensemble de tests externes.
* Expérience comparative 3 : Comparaison des performances de VirusImmu, NetBCE et EpiDope
Les chercheurs ont également comparé les performances de VirusImmu avec celles de deux méthodes de prédiction récemment publiées, NetBCE et EpiDope. NetBCE ne peut prédire l’immunogénicité que des séquences protéiques de moins de 24 acides aminés.VirusImmu peut prendre en compte les fragments de séquences protéiques longs et courts. Bien qu'EpiDope combine le réseau neuronal profond (DNN) du modèle de langage d'intégration (ELMo) et le DNN de la mémoire à long terme (LSTM), atteignant une AUC de 0,667, ses performances sont également inférieures à celles de VirusImmu (AUC = 0,712).

* Expérience comparative 4 : Comparaison de la robustesse entre Virusimmu et d'autres modèles
Pour tester la robustesse de tous les modèles, les chercheurs ont effectué 50 cycles d’échantillonnage aléatoire, chacun utilisant environ 301 échantillons d’antigènes et de non-antigènes TP3T provenant de l’ensemble de tests externes. VirusImmu obtient de meilleures performances que VaxiJen en termes d'AUC et de score F1.
Remarque : le score F1 est la moyenne harmonique de la précision et du rappel du modèle.
Étant donné que la capacité prédictive du modèle peut être affectée par la longueur de la séquence protéique, les chercheurs ont regroupé l’ensemble de tests externes en cinq groupes avec une étape incrémentielle de 200 pb dans la longueur de la séquence protéique, puis ont effectué 50 cycles d’échantillonnage aléatoire.
XGBoost et Virusimmu ont tous deux obtenu de bonnes performances (les deux premiers) dans les données de validation externes. L'AUC de XGBoost est légèrement meilleure que celle de Virusimmu, mais son score F1 est pire. XGBoost est également moins performant que Virusimmu pour les protéines inférieures à 200 pb et 600-800 pb.
Étant donné que la plupart des épitopes sont des fragments de protéines d’une longueur inférieure à 200, Virusimmu offre de meilleurs scénarios d’application que XGBoost.
Dans l'ensemble,Viruslmmu n'est pas basé sur la comparaison de séquences et élimine l'influence de la longueur de la séquence protéique. Comparé à des outils de prédiction similaires, il convient à la prédiction de protéines et de peptides avec une plus grande précision et une plus grande polyvalence.

Pour démontrer davantage la fiabilité de VirusImmu, les chercheurs ont sélectionné des épitopes du SARS-CoV-2 dans la littérature publiée pour vérifier la capacité de prédiction de l'immunogénicité de VirusImmu.
Les résultats montrent queParmi les 15 épitopes impliqués dans les quatre articles, 14 ont été prédits comme antigènes par VirusImmu, ce qui a vérifié la bonne performance de VirusImmu dans la prédiction de l'immunogénicité des protéines virales.
VirusImmu aide à identifier des candidats vaccins peptidiques contre le virus de la peste porcine africaine (PPA)
Comme il n’existe pas de vaccin ou de traitement efficace contre le virus de la peste porcine africaine, l’identification d’antigènes protecteurs est nécessaire. L’étude a révélé que la polyprotéine pp220 de l’ASFV, essentielle à l’intégrité structurelle du virus, contient des épitopes capables d’induire de fortes réponses immunitaires chez les porcs, ce qui suggère qu’elle a un potentiel d’application dans le développement de vaccins.
Pour identifier les épitopes antigéniques, les chercheurs ont utilisé 17 des méthodes les plus populaires, notamment BCPred, le serveur Immune Epitope Database (IEDB), et ont prédit 1 376 candidats épitopes linéaires des cellules B à partir de la protéine pp220.
Les chercheurs ont utilisé des critères stricts pour filtrer les épitopes antigéniques et, sur la base des résultats de prédiction de VaxiJen≤1,3, 29 épitopes sont restés, dont 12 ont été classés comme non allergènes et non toxiques. VirusImmu a prédit que 8 des 12 épitopes étaient antigéniques.

Afin de confirmer la liaison des 8 épitopes aux anticorps IgG sériques ASFV, les chercheurs ont collecté des sérums mixtes de 5 porcs infectés par ASFV et de 5 porcs sains.
Le test ELISA indirect a confirmé sept épitopes antigéniques linéaires des cellules B, mais l'un d'entre eux a réagi spécifiquement et de manière dose-dépendante avec les anticorps sériques des porcs infectés par le virus de la peste porcine africaine, mais pas chez les porcs sains, tandis qu'un peptide témoin arbitraire (« RRRRRRRRRRRRRR ») n'a eu aucun effet. L'épitope prédit par VirusImmu comme étant non antigénique (« VLEEQSKIDPNF ») n'a également montré aucune liaison spécifique aux anticorps sériques.
Ces résultats fournissent un exemple fort pour l’application de VirusImmu dans des scénarios réels.
La technologie de l'IA accélère le développement des vaccins
Avec le développement rapide de la science et de la technologie, l'IA a réalisé de nouvelles avancées dans le domaine de la biomédecine, notamment Alphaford 2 développé par Deepmind, qui a prédit avec succès la structure des protéines, et plus tard de nouvelles technologies telles que les protéines génératives. Dans le processus de développement de médicaments, la technologie de l’IA joue davantage le rôle d’un outil.

Premièrement, l’IA peut être utilisée pour l’analyse et la prédiction des génomes viraux.Grâce à l’apprentissage profond et à la reconnaissance de formes de grandes quantités de données sur le génome viral, l’IA peut prédire avec précision les tendances de mutation et d’évolution du virus, aidant les scientifiques à identifier rapidement les principales cibles protéiques du virus et à développer rapidement des vaccins associés.
Deuxièmement, l’IA joue un rôle important dans l’étape de sélection des médicaments dans le cadre du développement des vaccins.Le processus traditionnel de dépistage des drogues est généralement long, exigeant en main-d’œuvre et incertain. Cependant, grâce à des expériences de simulation à grande échelle et à l’exploration de données, l’IA peut rapidement évaluer l’interaction entre les médicaments et les virus, éliminer les médicaments candidats ayant une activité potentielle et améliorer l’efficacité du développement de vaccins.
De plus, l’IA peut être utilisée pour optimiser la conception des essais cliniques de vaccins.En simulant des données expérimentales à grande échelle, l’IA peut aider les scientifiques à prédire et à évaluer la réponse et les effets des vaccins sur le corps humain, à découvrir à l’avance d’éventuels problèmes de sécurité et effets secondaires et à optimiser la conception des expériences.
Sur le marché, les sociétés pharmaceutiques multinationales ont tendance à accorder plus d’attention à la technologie de l’IA. Selon les statistiques du cabinet de conseil en IA Deep Pharma Intelligence, en décembre 2022, l'investissement total dans 800 sociétés pharmaceutiques d'IA dans le monde a atteint 5,93 milliards de dollars américains, soit une augmentation de 27 fois en 9 ans.
Alors, à quels autres défis la technologie de l’IA est-elle confrontée dans le développement de vaccins et d’autres médicaments ? Selon Li Wenwen, professeur adjoint du département de gestion de l'information et de veille économique de l'école de gestion de l'université Fudan, la formation d'algorithmes d'IA nécessite d'énormes quantités de données pour apprendre, et dans le domaine de la recherche et du développement de médicaments, ces données incluent les structures pertinentes des protéines, différentes chaînes de séquences d'acides aminés, etc.
À l’heure actuelle, la difficulté d’appliquer la technologie de l’IA à la recherche et au développement de médicaments réside dans l’acquisition et l’accumulation de données. Les données de laboratoire sont chères, tandis que les sociétés pharmaceutiques ne partagent pas suffisamment de données et que les données de base et étiquetées sont rares. Ce sont toutes des limitations.