L’IA Facilite Des Percées Historiques Dans La Recherche Sur Les Virus À ARN Et D’autres Ont Utilisé Des Modèles D’apprentissage Profond Pour Découvrir Plus De 160 000 Nouveaux Virus.

Début 2020, l’ombre du nouveau coronavirus a rapidement enveloppé le monde. Dans cette course contre la montre, nous avons vu d’innombrables individus et équipes courageux se manifester, le système social a subi de sévères tests à maintes reprises et a également sonné l’alarme pour le domaine de la santé publique mondiale.
Le coronavirus est craint en grande partie parce qu’il s’agit d’un virus à ARN. Ce type de virus ne dispose pas de mécanisme de correction d’erreur lors de la réplication et est sujet à la mutation. Cette capacité de mutation permet non seulement aux virus à ARN de se propager à travers les espèces et d’élargir leur gamme d’hôtes, mais peut également provoquer des changements de pathogénicité. Un virus initialement inoffensif pour l’homme peut devenir pathogène et provoquer une maladie après une mutation. Étant donné que les humains manquent généralement d’immunité contre ces virus mutés, une fois que le virus mute, il peut rapidement provoquer une épidémie à grande échelle.
Bien que les virus soient étroitement liés à la santé humaine, il n’existe que plus de 5 000 espèces de virus connues et confirmées chez l’homme, ce qui n’est que la pointe de l’iceberg. Les méthodes traditionnelles d’identification des virus à ARN dépendent fortement de la comparaison d’homologie de séquence, c’est-à-dire que l’identification est effectuée en comparant les similitudes de séquence entre les virus inconnus et les virus connus. mais,Les virus à ARN étant nombreux et hautement différenciés, les méthodes traditionnelles sont difficiles à capturer les « virus de matière noire » qui manquent d’homologie ou qui ont une très faible homologie.Cela limite l’efficacité de la découverte de nouveaux virus.
Au cours des 10 dernières années, les méthodes liées à l’intelligence artificielle, en particulier les algorithmes d’apprentissage profond, ont eu un impact significatif dans divers domaines de recherche en sciences de la vie. La combinaison de l’IA et de la recherche en virologie fournit de nouvelles méthodes permettant aux humains de surmonter la difficulté de l’identification des virus à ARN.
récemment,Le professeur Shi Mang de la faculté de médecine de l'université Sun Yat-sen, en collaboration avec l'université du Zhejiang, l'université de Fudan, l'université agricole de Chine, l'université de la ville de Hong Kong, l'université de Guangzhou, l'université de Sydney, le laboratoire Alibaba Cloud Feitian, etc., a proposé un nouveau modèle d'apprentissage en profondeur LucaProt.Le modèle utilise le cloud computing et la technologie de l’IA pour découvrir 180 supergroupes et plus de 160 000 nouveaux virus à ARN, soit près de 30 fois le nombre de virus connus. Cela a considérablement amélioré la compréhension de l’industrie sur la diversité des virus à ARN et sur l’histoire de l’évolution virale. L’étude a également découvert le génome de virus à ARN le plus long à ce jour, atteignant 47 250 nucléotides de longueur, marquant une avancée majeure dans le domaine de l’identification des virus à ARN.
L'étude a été publiée dans la revue académique internationale Cell sous le titre « Utiliser l'intelligence artificielle pour documenter la virosphère cachée de l'ARN ».
Points saillants de la recherche :
* La technologie d'exploration métagénomique pilotée par l'IA a permis une expansion sans précédent de la diversité mondiale des virus à ARN
* Grâce à une identification précise, l'existence de 161 979 espèces potentielles de virus à ARN et de 180 supergroupes viraux a été révélée
* L'étude a révélé le génome de virus à ARN le plus long à ce jour, qui pourrait avoir des caractéristiques structurelles modulaires

Adresse du document :
https://doi.org/10.1016/j.cell.2024.09.027
Suivez le compte officiel et répondez « Identification du virus à ARN » pour obtenir le PDF complet
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Ensemble de données : Couvrant divers écosystèmes à travers le monde, les virus à ARN sont divers
Cette étude a d’abord mené une recherche systématique dans des bases de données telles que NCBI SRA et CNGBdb, dans le but de mener des recherches approfondies sur la diversité des virus à ARN dans divers écosystèmes à travers le monde.
Comme le montre la figure A ci-dessous, l’équipe de recherche a examiné un total de 10 487 ensembles de données provenant d’échantillons de l’environnement biologique mondial.Le total des données de séquençage impliquées a atteint 51 To, générant plus de 1,3 milliard de fragments et 872 millions de protéines prédites.À l’aide de ces grands ensembles de données, les chercheurs ont révélé et validé des RdRP viraux potentiels et les ont validés de manière croisée à l’aide de deux stratégies différentes.

En combinant les résultats des deux stratégies de recherche,L’étude a révélé 513 134 génomes viraux représentant 161 979 espèces virales potentielles et 180 supergroupes de virus à ARN.Cette découverte élargit considérablement la compréhension de l'étude sur le supergroupe des virus à ARN, en l'augmentant d'environ 9 fois et le nombre d'espèces virales d'environ 30 fois.
Comme le montre la figure C ci-dessous, cette étude a comparé les séquences de protéines RdRP dans d’autres études.Au total, 70 458 espèces virales potentiellement uniques nouvellement identifiées ont été révélées.

L’étude a également révélé 60 supergroupes jusqu’alors non reconnus et sous-explorés,Ces supergroupes n’ont reçu qu’une attention limitée jusqu’à présent. Il convient de noter en particulier, comme le montre la figure D ci-dessous, que l’étude a révélé que 23 de ces supergroupes ne pouvaient pas être identifiés par les méthodes traditionnelles d’homologie de séquence, et qu’ils sont appelés la « matière noire » de la virosphère.

LucaProt : un modèle d'apprentissage profond basé sur les données qui ouvre un nouveau paradigme pour la recherche en virologie
L’étude a développé un modèle d’apprentissage profond basé sur les données, LucaProt. Comme le montre la figure E ci-dessous, LucaProt se compose de cinq modules principaux : Entrée, Tokenizer, Encoder, Pooling et Sortie :
* Saisir:Principalement responsable de la réception des séquences d’acides aminés ;
* Tokeniseur :Principalement responsable de la conversion de la séquence d'origine dans un format que le modèle peut comprendre. Ce module consiste à construire un corpus composé de séquences RdRP virales et non virales et à créer un vocabulaire utilisant l'algorithme BPE pour décomposer les séquences protéiques en acides aminés individuels afin d'extraire des informations structurelles ;
* Encodeur :Il est principalement responsable de la conversion des données en deux formes de représentation, l'une est la matrice de représentation de séquence générée par Transformer-Encoder, et l'autre est la matrice de représentation de structure générée par le modèle de prédiction de structure ESMFold. Cette méthode de représentation à double voie résout non seulement le problème de la rareté des données structurelles 3D, mais améliore également l’efficacité du calcul ;
* Mise en commun :Il est principalement responsable de la conversion de la matrice de séquence et de la matrice de structure en 2 vecteurs via la méthode de regroupement d'attention au niveau de la valeur (VLAP), réduisant la dimension et sélectionnant les fonctionnalités pour une classification efficace.
* Sortir:Il est principalement responsable de la conversion de ces vecteurs en une valeur de probabilité, indiquant la possibilité que l'échantillon soit un RdRP viral. Les séquences ont été classées comme RdRP virales ou RdRP non virales par la fonction sigmoïde.

final,L’étude a soigneusement préparé un ensemble de données contenant 235 413 échantillons.Vise à améliorer la précision et la capacité de généralisation du modèle. Cet ensemble de données comprend 5 979 RdRP viraux bien étudiés (échantillons positifs) et 229 434 RdRP non viraux (échantillons négatifs). Il est basé sur le cadre Transformer et la technologie de caractérisation de grands modèles, combinés à la séquence des protéines et aux caractéristiques structurelles intrinsèques, et surpasse les méthodes traditionnelles en termes de précision, d'efficacité et de diversité virale détectée.
Plus important encore, LucaProt intègre non seulement les données de séquence mais également les informations structurelles, ce qui est crucial pour une prédiction précise de la fonction des protéines.
Identification d'une structure génomique au-delà des connaissances antérieures, le génome du virus à ARN le plus long jamais découvert
Afin d'évaluer pleinement les performances de LucaProt, l'étude a mené une analyse approfondie sous plusieurs angles pour garantir une vérification complète de sa précision et de son efficacité :
* Évaluation des performances de LucaProt
* Vérifier et confirmer si le supergroupe de virus nouvellement découvert est un virus à ARN
* Analyse de la modularité et de la flexibilité de la structure du génome du virus à ARN
* Analyse de la diversité phylogénétique des virus à ARN
* Analyse de la structure écologique des virus à ARN mondiaux
Cinq méthodes ont été évaluées conjointement en termes de performances, et LucaProt a obtenu les résultats les plus complets.
Pour évaluer les performances de LucaProt, l’étude l’a comparé à quatre autres outils de découverte de virus. Les résultats montrent que, comme le montre la figure A,LucaProt présente le taux de rappel le plus élevé tout en maintenant un taux de faux positifs relativement faible.

En termes d'efficacité de calcul, comme le montre la figure E, LucaProt prend en moyenne 6 ensembles de données pour traiter des ensembles de données de différentes longueurs.A démontré une efficacité plus raisonnable.

Enfin, l'architecture avancée Transformer intégrée dans LucaProt permet le traitement parallèle de séquences d'acides aminés plus longues, comme le montrent les figures FH.Cette architecture est plus efficace pour capturer les relations entre des parties distantes de l'espace de séquence que les encodeurs CNN/RNN couramment utilisés dans d'autres outils bioinformatiques.

Validation et caractérisation structurelle d'un supergroupe de virus à ARN nouvellement découvert, dont la plupart présentent une similarité de séquence avec les RdRP existants
L’équipe de recherche a extrait et séquencé l’ADN et l’ARN de 50 échantillons environnementaux dans le but de vérifier la présence de 115 supergroupes viraux identifiés dans ces échantillons. Comme le montre le panneau B, seules les lectures de séquençage d'ARN ont été cartographiées avec succès sur des séquences associées aux RdRP viraux, tandis que les lectures de séquençage d'ARN et d'ADN ont été cartographiées sur des séquences associées aux virus à ADN, aux rétrovirus (RT) et aux organismes cellulaires, respectivement.
De plus, comme le montre la figure C, en appliquant la méthode RT-PCR plus sensible, l’équipe de recherche a confirmé 17 des 115 supergroupes viraux. Dans ces supergroupes, l’extraction d’ADN n’a pas permis de détecter les séquences codant pour le RdRP viral.Cela confirme une fois de plus que ces supergroupes viraux sont bien des organismes à ARN.

Le génome du virus à ARN le plus long jamais découvert
Dans une analyse approfondie de la composition et de la structure des génomes putatifs de virus à ARN, l'étude a révélé que bien que la longueur de la plupart des génomes soit concentrée à environ 2 131 nucléotides, la longueur des génomes ou des fragments de génome codant pour RdRP variait considérablement entre les différents supergroupes. En particulier, l’étude a identifié des génomes de virus à ARN extrêmement longs à partir d’échantillons de sol, comme le montre la figure C, dont l’un mesure 47,3 kb de long.C'est l'un des virus à ARN les plus longs connus.Dans ce génome ultra-long, l'étude a découvert un ORF supplémentaire situé entre l'extrémité 50 et la région codante RdRP, mais sa fonction nécessite une étude plus approfondie.

Le taux d’expansion des espèces de virus à ARN est alarmant, et des virus à ARN plus différenciés peuvent exister dans les échantillons environnementaux
L'étude a également révélé que, comme le montre la figure ci-dessous, le nombre d'espèces de virus à ARN a augmenté de 55,9 fois par rapport aux espèces de virus définies par le Comité international de taxonomie des virus (ICTV) et a augmenté de 1,4 fois par rapport à toutes les séquences RdRP décrites précédemment. Cette expansion est particulièrement évidente dans la diversité accrue des groupes viraux connus.

Il est à noter que certains groupes qui n’étaient auparavant représentés que par un nombre limité de génomes, tels qu’AstroPoty, Hypo, Yan et plusieurs supergroupes récemment découverts, ont affiché des niveaux élevés de diversité phylogénétique. Par exemple, SG023 contient 1 232 virus, SG025 contient 466 virus et SG027 contient 475 virus.Cela suggère qu’il pourrait y avoir davantage de virus à ARN hautement différenciés dans les échantillons environnementaux.En attendant que nous le découvrions.
Les virus à ARN présentent encore une certaine diversité dans des environnements extrêmes
L’étude a montré que les virus à ARN sont présents dans 1 612 endroits et 32 écosystèmes à travers le monde.Comme le montre la figure A, même dans les échantillons écologiques qui ont été étudiés à plusieurs reprises, LucaProt a encore trouvé un nouveau groupe de virus de 5-33.3%.Cela indique que la diversité des virus à ARN n’a pas été entièrement explorée, en particulier dans les environnements terrestres et aquatiques.
L’étude a également comparé la diversité alpha et l’abondance des virus à ARN dans différents écosystèmes. Comme le montrent les figures CD, la diversité α était la plus élevée dans les environnements de litière de feuilles, de zones humides, d’eau douce et d’eaux usées, tandis que l’abondance était la plus élevée dans les sédiments antarctiques, les sédiments marins et les écosystèmes d’eau douce. La diversité et l’abondance étaient les plus faibles dans les environnements de sel gemme et de sous-surface, ce qui est cohérent avec le faible nombre de cellules hôtes. Les sous-types écologiques extrêmes tels que les sources chaudes et les sources hydrothermales présentent une faible diversité de virus à ARN mais une abondance modérée.

Du monde universitaire à l'industrie, les progrès révolutionnaires de l'IA et les perspectives d'avenir de la recherche sur les virus à ARN
En fait, l’application de l’IA dans la recherche sur les virus à ARN est devenue une tendance puissante dans l’exploration scientifique. Une équipe de recherche dirigée par le professeur Shi Mang de l'Université Sun Yat-sen a réalisé des progrès révolutionnaires grâce à la technologie de l'IA et a découvert plus de 160 000 nouveaux virus à ARN. Cette réalisation marque une étape importante dans le domaine.
Mais dès 2022, une équipe de recherche internationale, en collaboration avec des scientifiques des États-Unis, de France, de Suisse et d’autres pays,La technologie d’apprentissage automatique de l’IA a été utilisée pour identifier 5 500 nouveaux virus à ARN à partir d’échantillons d’eau de mer du monde entier.A contribué à l’établissement de la base de données sur les virus à ARN. Cette étude élargit non seulement le champ de la recherche écologique, mais approfondit également la compréhension de l’évolution des virus à ARN et fournit de nouveaux indices pour explorer l’évolution de la vie primitive sur Terre.
Les résultats de la recherche ont été publiés dans la revue Science sous le titre « Virus marins cryptiques et abondants aux origines évolutives du virome à ARN de la Terre ».
* Lien vers l'article :
https://doi.org/10.1126/science.abm5847
Bien entendu, l’application de l’IA dans la recherche sur les virus à ARN ne se limite pas à l’exploration de domaines inconnus, mais est également cruciale pour la recherche approfondie dans des domaines connus. Par exemple, le COVID-19, un virus à ARN, possède près de 16 millions de séquences génomiques dans la base de données GISAID partagée à l’échelle mondiale. Ces données fournissent une mine d’informations pour la recherche, mais nécessitent également beaucoup de ressources informatiques et humaines pour analyser l’évolution et l’histoire de la COVID-19.
Pour relever ce défi, début 2024, des scientifiques de l’Université de Manchester et de l’Université d’Oxford ont développé un cadre d’IA capable d’identifier et de suivre les nouveaux variants pertinents de la COVID-19, ce qui pourrait aider à lutter contre d’autres infections à l’avenir.Le cadre combine des techniques de réduction de dimensionnalité avec un nouvel algorithme de clustering interprétable, CLASSIX, développé par des mathématiciens de l'Université de Manchester, pour identifier rapidement les génomes viraux potentiellement risqués.L’étude, publiée dans les Proceedings of the National Academy of Sciences, propose une nouvelle approche pour suivre l’évolution virale et pourrait avoir un impact sur les méthodes traditionnelles de suivi de l’évolution virale.
Dans l’industrie, l’exploration de la recherche sur les virus à ARN est également active. En raison du taux de mutation élevé des virus à ARN lors de la réplication, l’étude des virus à ARN et le développement de vaccins ont toujours été un défi. Au cours du premier semestre 2023, l’application du développement de médicaments assisté par l’IA augmente.Les scientifiques de la branche californienne de Baidu ont utilisé l'IA pour optimiser en profondeur le vaccin à ARNm, améliorant non seulement la séquence mais aussi la structure, augmentant ainsi la stabilité de la molécule.Cela lui permet de rester actif dans le corps humain pendant une période plus longue. Si cette technologie s’avère sûre, elle deviendra un outil puissant pour le développement d’une nouvelle génération de vaccins à ARN et pourrait également fournir de nouvelles idées pour le domaine du développement de médicaments à ARN.
Au cours du second semestre 2023, Deep Genomics a publié « Un modèle de fondation d'ARN permet la découverte de mécanismes de maladies et de thérapies candidates », présentant son modèle de fondation d'intelligence artificielle unique BigRNA. BigRNA est le premier réseau neuronal Transformer pour la biologie et la thérapeutique de l'ARN, avec près de 2 milliards de paramètres réglables et formé sur des milliers d'ensembles de données contenant 1 000 milliards de signaux génomiques.Il s’agit d’une nouvelle génération d’IA d’apprentissage profond qui peut être appliquée à une variété de tâches différentes de découverte thérapeutique d’ARN.
En regardant vers l’avenir, les perspectives d’application de l’IA dans la recherche sur les virus à ARN sont également assez vastes. Avec l’augmentation de la puissance de calcul et l’amélioration des algorithmes, l’IA pourrait être en mesure de traiter des ensembles de données plus volumineux et d’identifier davantage de populations de virus inconnues, ainsi que leurs hôtes et leurs voies de transmission. Cela permettra non seulement d’approfondir la compréhension du rôle des virus à ARN dans l’écosystème, mais également de fournir un soutien solide à la prévention et au contrôle d’éventuelles épidémies à l’avenir.
En outre, l’application de l’IA à la conception de vaccins et au développement de médicaments indique que les gens pourraient bientôt accéder à des solutions médicales plus personnalisées et plus précises, apportant un nouvel espoir pour la sécurité de la santé publique mondiale.