Nouvelle Méthode AiCE pour l'Ingénierie Protéique Optimisée grâce à l'Intelligence Artificielle Chinoise
Développement réussi d'une méthode de protéinique générale basée sur l'intelligence artificielle —— Institut de génétique et de biologie du développement de l'Académie chinoise des sciences La protéinique, qui utilise la flexibilité des protéines pour modifier leurs séquences d'acides aminés, permet de manipuler directement les molécules protéiques en vue de leurs optimisations structurales et fonctionnelles. Contrairement à la génomique, où les modifications s'effectuent au niveau du génome, la protéinique offre la possibilité d'apporter des changements rapides et précis. Les stratégies actuelles de protéinique incluent le design rationnel guidé par la structure et l'évolution dirigée par des mutations itératives, mais ces méthodes présentent souvent des limitations telles que des cycles expérimentaux longs et des coûts élevés, rendant leur application à grande échelle difficile. Une méthode idéale de protéinique devrait minimiser les investissements tout en maximisant les performances. Récemment, l'usage d'intelligence artificielle (IA) pour entraîner des modèles spécifiques aux protéines a ouvert de nouvelles perspectives, permettant de simuler des mutations et d'améliorer les fonctions protéiques. Cependant, ces modèles sont peu adaptables aux différentes protéines, manquent de généralité, et nécessitent des ressources informatiques et expérimentales considérables. Ainsi, il est crucial de développer une stratégie de simulation computationnelle de protéinique efficace, polyvalente et ne requérant pas un entrainement complexe. Le 7 juillet, une équipe dirigée par Gao Caixia de l'Institut de génétique et de biologie du développement de l'Académie chinoise des sciences a publié dans la revue Cell une nouvelle méthode, AiCE (AI-informed Constraints for protein Engineering), fondée sur un modèle d'interprétation inverse intégrant des contraintes structurales et évolutives. AiCE offre des simulations rapides et performantes de l'évolution protéique sans nécessiter l'entraînement spécifique de modèles IA pour chaque type de protéine. L'interprétation inverse des protéines consiste à prédire les séquences compatibles à partir d'une structure tridimensionnelle donnée. Les modèles d'interprétation inverse apprennent implicitement les propriétés géométriques et physiques de la trame de la protéine en s’appuyant sur des structures et séquences naturelles de protéines. Ils identifient également les motifs complexes des séquences protéiques façonnés par la dynamique évolutionnaire. L'équipe de Gao Caixia a intégré ces principes pour créer le module AiCEsingle, qui utilise des contraintes structurelles pour sélectionner les acides aminés les plus fréquents et les plus pertinents pour des mutations ponctuelles. Tests réalisés sur 60 jeux de données de scans de mutations profondes ont montré que AiCEsingle atteignait une précision de prédiction de 16 %. Des essais d'ablation et des analyses de régression logistique ont démontré l'importance des contraintes structurelles, améliorant la performance de 37 % par rapport aux méthodes sans restriction. Par ailleurs, AiCEsingle surpassait significativement les autres modèles IA courants, avec des gains de performance allant de 36 % à plus de 90 %. Cette méthode a fait ses preuves sur des protéines complexes et des complexes protéine-nucléique, comme les protéines CRISPR et celles du virus SARS-CoV-2, soulignant sa polyvalence. Pour surmonter les effets négatifs des interactions entre mutations combinaisonnelles (épistasie), l'équipe a supposé que les positions des acides aminés évoluant de manière couplée peuvent présenter des synergies fonctionnelles. Ils ont donc développé le module AiCEmulti, capable de prédire des positions de mutations combinées en utilisant des contraintes évolutives. Les analyses de six bibliothèques de mutations ont révélé que AiCEmulti offrait des résultats comparables à ceux de grandes modélisations protéiques comme SaProt, mais à un coût computationnel bien moindre. AiCE, intégrant les modules AiCEsingle et AiCEmulti, permet des prédictions de mutations individuelles et combinées rapidement et efficacement. En utilisant des modèles d'interprétation inverse existants, cette méthode évite le haut coût de l'entraînement de nouveaux modèles. Pour illustrer son efficacité, AiCE a permis de reconnaître les mutants simples et doubles de la protéine SpCas9 en seulement 1.15 CPU heures. La robustesse et l'efficacité de AiCE ont été validées expérimentalement en optimisant huit protéines diverses en termes de structure et de fonction. Ces protéines comprenaient des déaminases, des séquences de localisation nucléaire, des nucléases et des rétroatranscriptases. Grâce à ces optimisations, l'équipe a développé de nouveaux éditeurs de base pour des applications médicales précises et l'agrobiologie. Parmi ces innovations, on trouve un nouvel éditeur de base de cytosine enABE8e dont la fenêtre d'édition a été réduite de presque moitié, un éditeur de base d'adénine enSdd6-CBE dont la fidélité a été améliorée de 1.3 fois, et un éditeur mitochondrial enDdd1-DdCBE dont l'activité a été augmentée de 13 fois. Les résultats montrent que AiCE offre plusieurs avantages par rapport aux méthodes traditionnelles de protéinique : elle est plus rapide, plus scalable et plus polyvalente. Les chercheurs espèrent que AiCE facilitera le développement de protéines avec des performances optimisées pour un large éventail d'applications, notamment dans les domaines de la médecine précise et de l'agrobiologie. Ce projet a été financé par diverses initiatives, notamment le Ministère de l'Agriculture et des Affaires rurales, le Fonds national de la science naturelle, et des programmes nationaux de recherche et développement. La publication de ces résultats dans Cell marque une avancée importante dans le champ de la protéinique informatique et ouvre des perspectives prometteuses pour l'avenir de ce domaine.