L'équipe De Luo Xiaozhou De L'académie Chinoise Des Sciences a Proposé Le Cadre UniKP, Un Grand Modèle + Apprentissage Automatique Pour Prédire Les Paramètres Cinétiques Des Enzymes Avec Une Grande Précision

Auteur : Li Baozhu
Rédacteur en chef : Sanyang
L'équipe de Luo Xiaozhou de l'Institut de technologie avancée de Shenzhen, Académie chinoise des sciences, a proposé un cadre de prédiction des paramètres cinétiques enzymatiques (UniKP) pour parvenir à la prédiction d'une variété de paramètres cinétiques enzymatiques différents.
Comme nous le savons tous, le métabolisme des organismes s’effectue grâce à une variété de réactions chimiques. Si ces réactions sont réalisées in vitro, elles nécessitent généralement des conditions sévères telles qu'une température élevée, une pression élevée, un acide fort et un alcali fort pour se produire.
Cependant, dans les organismes vivants, les réactions métaboliques peuvent se dérouler efficacement dans des conditions extrêmement douces, principalement grâce à d'importants catalyseurs organiques : les enzymes.
En tant que point de connaissance de haut niveau tout au long du programme de biologie au lycée, les caractéristiques des enzymes ont peut-être été profondément imprimées dans la mémoire de chacun - efficacité catalytique élevée, forte spécificité, conditions d'action douces, etc. Plus important encore, les enzymes sont étroitement liées à de nombreuses maladies humaines et peuvent également être utilisées pour le diagnostic et le traitement. Depuis longtemps, les gens mènent des recherches approfondies sur la structure et la fonction des molécules enzymatiques tout en continuant à explorer les facteurs qui affectent les réactions enzymatiques.
La science qui étudie la vitesse des réactions enzymatiques et le mécanisme par lequel divers facteurs affectent la vitesse des réactions enzymatiques est appelée « cinétique des réactions enzymatiques ».Dans la recherche, l’efficacité catalytique d’une enzyme dans une réaction spécifique est généralement mesurée par des paramètres cinétiques enzymatiques.
Les paramètres cinétiques des réactions catalysées par des enzymes comprennent le nombre de renouvellement enzymatique kchat , constante de Michaelis Km et l'efficacité catalytique kchat / Km Actuellement, les mesures de paramètres reposent principalement sur des expériences humides, mais ce processus est long et coûteux, ce qui donne lieu à une base de données relativement petite de paramètres cinétiques enzymatiques mesurés expérimentalement. La rareté des données limitera le développement des domaines de la biologie des systèmes en aval et de l’ingénierie métabolique.
Compte tenu de cela,L'équipe de Luo Xiaozhou de l'Institut de synthèse des Instituts de technologie avancée de Shenzhen, Académie chinoise des sciences, a proposé un cadre de prédiction des paramètres cinétiques enzymatiques (UniKP) basé sur un modèle de langage pré-entraîné et un modèle d'apprentissage automatique.
Ce cadre peut prédire une variété de paramètres cinétiques enzymatiques en utilisant uniquement la séquence d'acides aminés d'une enzyme donnée et les informations structurelles de son substrat. De plus, l'équipe de recherche a également pris en compte les facteurs environnementaux et a proposé un cadre à double couche EF-UniKP basé sur UniKP, qui a permis une prédiction plus précise des paramètres cinétiques enzymatiques.

Lien vers l'article :
https://www.nature.com/articles/s41467-023-44113-1
Lien GitHub :
https://github.com/Luo-SynBioLab/UniKP
Suivez le compte officiel et répondez « UniKP » pour télécharger l'article complet
Des ensembles de données représentatifs valident la valeur du modèle
L’équipe de recherche a sélectionné quatre ensembles de données représentatifs pour vérifier les performances et la valeur d’UniKP.
Le premier est l’ensemble de données DLKcat,Les chercheurs ont examiné 16 838 échantillons, dont 7 822 séquences protéiques uniques et 2 672 substrats uniques provenant de 851 organismes. L'ensemble de données est divisé en un ensemble d'entraînement et un ensemble de test dans un rapport de 9:1.
Viennent ensuite les ensembles de données de pH et de température,L'ensemble de données de pH contient 636 échantillons, constitués de 261 séquences enzymatiques uniques et de 331 substrats uniques ; L'ensemble de données de température contient 572 échantillons, constitués de 243 séquences enzymatiques uniques et de 302 substrats uniques. L'ensemble de données est divisé en un ensemble d'entraînement et un ensemble de test dans un rapport de 8:2.
La troisième est la constante de Michaelis (Km) ensemble de données,Il se compose de 11 722 échantillons, dont des séquences enzymatiques, des empreintes moléculaires de substrat et des K correspondants.m valeur. L'ensemble de données est divisé en un ensemble d'entraînement et un ensemble de test dans un rapport de 8:2.
Le quatrième est kchat/Km Ensemble de données,Contient 910 séquences enzymatiques, structures de substrat et leurs k correspondantschat/Km Un échantillon de valeurs.
Deux composants clés : module de représentation + module d'apprentissage automatique
L'UniKP proposé par l'équipe de recherche peut améliorer la prédiction de k en fonction des séquences enzymatiques et des structures de substrat données.chat , Km et kchat / Km précision. Le framework UniKP se compose de deux composants clés : un module de représentation et un module d'apprentissage automatique.
Le rôle du module de représentation est de convertir les informations complexes sur les enzymes et les substrats en représentations vectorielles qui peuvent être comprises et traitées par le modèle d'apprentissage automatique.Cela permet aux modules d’apprentissage automatique ultérieurs d’effectuer des prédictions et des analyses.

Parmi eux, le module de représentation de séquence enzymatique utilise le modèle de langage pré-entraîné ProtT5-XL-UniRef50 pour coder les informations enzymatiques. Chaque acide aminé est converti en un vecteur de 1 024 dimensions via le modèle et traité par pooling moyen, et enfin un vecteur de 1 024 dimensions est généré pour représenter les informations de séquence de l'enzyme entière (comme indiqué dans la figure ci-dessus).

Le module de représentation de la structure du substrat utilise le modèle de langage pré-entraîné SMILES Transformer pour coder les informations du substrat. La structure du substrat est convertie au format SMILES, puis un vecteur de 1 024 dimensions est généré via un convertisseur SMILES pré-entraîné. La première sortie de la dernière couche et de l'avant-dernière couche est moyennée et mise en commun au maximum pour finalement générer un vecteur de 1 024 dimensions pour représenter les informations structurelles du substrat (comme indiqué dans la figure ci-dessus).

Pour le module d'apprentissage automatique,L'équipe de recherche a comparé 16 modèles d'apprentissage automatique différents et deux modèles d'apprentissage profond représentatifs : les réseaux neuronaux convolutifs et les réseaux neuronaux récurrents.
Les résultats montrent que les modèles intégrés présentent de meilleures performances, en particulier les forêts aléatoires et les arbres supplémentaires, qui sont nettement meilleurs que les autres modèles, parmi lesquels les arbres supplémentaires sont les plus performants (R²=0,65). Comme le montre la figure ci-dessus, le modèle d'apprentissage automatique prend le vecteur de représentation concaténé comme entrée et génère le k préditchat , Km ou kchat / Km valeur.

De plus, les chercheurs ont pris en compte les facteurs environnementaux, généré un cadre de prédiction optimisé et l’ont validé sur deux ensembles de données couvrant les informations de pH et de température (comme indiqué dans la figure ci-dessus).

Enfin, UniKP ajuste la distribution du poids de l'échantillon via différentes méthodes de repondération pour produire des résultats de prédiction optimisés pour les tâches de prédiction à haute valeur ajoutée (comme illustré dans la figure ci-dessus).
Cadre double couche — EF-UniKP
En tant que framework à deux couches, EF-UniKP se compose d'une couche de base et d'une méta-couche, comme illustré dans la figure suivante :

La couche de base contient deux modèles indépendants : UniKP et UniKP révisé. UniKP prend le vecteur de représentation de connexion de la protéine et du substrat comme entrée, tandis que UniKP révisé utilise le vecteur de représentation de connexion de la protéine et du substrat, combiné à la valeur du pH ou de la température comme entrée.
La méta-couche se compose d'un modèle de régression linéaire utilisant le k prédit à partir d'UniKP et d'UniKP réviséchat valeur pour prédire le k finalchat valeur.
La valeur R² est supérieure à 20%, EF-UniKP gagne
L'équipe de recherche de kchat Le cadre UniKP est validé sur la tâche de prédiction à l'aide de l'ensemble de données DLKcat, qui contient 16 838 échantillons. Au cours de 5 cycles de validation d'ensembles de tests répartis de manière aléatoire, UniKP a obtenu une valeur R² de 0,68, soit 20% de plus que DLKcat. De plus, lors du test, la valeur la plus élevée de DLKcat est inférieure de 16% à la valeur la plus basse d'UniKP, prouvant ainsi davantage la robustesse d'UniKP.

L'équipe de recherche a ensuite créé deux ensembles de données couvrant les informations de pH et de température pour évaluer EF-UniKP, et les a divisés en ensembles d'entraînement et de test dans un rapport de 8:2, respectivement.
Sur l'ensemble de test,EF-UniKP est plus performant que UniKP et UniKP révisé.Dans le test de l'ensemble de données de pH, le R² de EF-UniKP est respectivement 20% et 8% plus élevé. Dans le test de l'ensemble de données de température, le R² de EF-UniKP est respectivement 26% et 2% plus élevé. Dans les tests où au moins l'une des enzymes et du substrat n'était pas dans l'ensemble d'entraînement, les valeurs R² de EF-UniKP étaient 13% et 10% plus élevées que celles de UniKP et UniKP révisé sur l'ensemble de données de pH, et 16% et 4% plus élevées sur l'ensemble de données de température, respectivement.

Modèle papillon : intégrer la recherche scientifique et l'industrie
Les Instituts de technologie avancée de Shenzhen de l'Académie chinoise des sciences (ci-après dénommés « Institut avancé de Shenzhen »), à l'origine du groupe de recherche de Luo Xiaozhou, ont été créés conjointement par l'Académie chinoise des sciences, le gouvernement populaire municipal de Shenzhen et l'Université chinoise de Hong Kong en février 2006. Ils se composent de huit instituts de recherche :
* Institut de technologie intégrée avancée de Shenzhen, Académie chinoise des sciences, Université chinoise de Hong Kong
* Institut d'ingénierie biomédicale et sanitaire
* Institut d'informatique avancée et d'ingénierie numérique
* Institut de biomédecine et de technologie
* Institut de la cognition cérébrale et des maladies cérébrales
* Institut de biologie synthétique
* Institut des sciences et de l'ingénierie des matériaux avancés
* Institut de recherche sur les technologies de neutralité carbone (préparatoire)
Le Dr Luo Xiaozhou a terminé ses recherches postdoctorales à l'Université de Californie à Berkeley en 2019, est retourné en Chine et a officiellement rejoint l'Institut de biologie synthétique de l'Institut de technologie avancée de Shenzhen en tant que chercheur. La même année, « Senruis Bio », dont il était l'un des partenaires, a été officiellement créée à Shenzhen, se concentrant sur la recherche et le développement de la technologie de la biologie synthétique et de ses applications innovantes dans divers domaines. En mars 2022, la société a finalisé un financement de série A de près de 100 millions de yuans.
Le parcours de développement du Dr Luo Xiaozhou, qui consiste à équilibrer la « recherche scientifique » et « l’industrie », est parfaitement conforme à la mission des Shenzhen Advanced Institutes. Selon l'introduction,L'Institut de technologie avancée de Shenzhen a exploré le « modèle papillon 0-1-10-∞ ».Cela a également été bien pratiqué chez Senruis Biotech.
Après avoir découvert que le caoutchouc liquide HVR et le cannabinoïde CBD peuvent partager les mêmes cellules de châssis de propriété intellectuelle indépendantes, Senruis a utilisé plusieurs méthodes de processus développées au stade précoce pour la transformation de la levure de bière, combinées à sa bibliothèque interne de composants biologiques synthétiques,La production de caoutchouc liquide HVR a été augmentée à des niveaux commercialement viables en 6 mois.
Parmi eux, le Dr Luo Xiaozhou a collaboré avec son mentor, l'académicien Jay D. Keasling, qui est également l'un des fondateurs de Senruis, et a ouvert avec succès la voie de synthèse biologique des cannabinoïdes en 2019, qui est devenue la base de sa commercialisation.
Luo Xiaozhou a déclaré qu'il existe deux facteurs clés pour parvenir à une industrialisation rapide des pipelines :Premièrement, l’intégration profonde du monde universitaire et de l’industrie.La communauté universitaire construit efficacement des voies de synthèse 0-1 pour les composés nécessaires à l’industrie ;Le deuxième est la standardisation des processus et des outils de production.Couvrant trois étapes allant de la recherche académique 0-1, de la recherche et développement en ingénierie 1-10 à la mise à l'échelle industrielle illimitée 10, nous construirons une ligne de production de biologie synthétique et améliorerons l'efficacité de la recherche et du développement de 1 à 10.
Références :
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw