HyperAIHyperAI

L'Université Des Sciences Et Technologies De Hong Kong Propose Un Cadre De Réseau Neuronal De Fusion Pour Prédire Efficacement Les Sites De Liaison Multi-métaux Dans Les Séquences De Protéines

特色图像

Les ions métalliques jouent un rôle indispensable à la vie. Le zinc agit comme un acide de Lewis dans la catalyse hydrolase, le fer est un vecteur clé du transport d'électrons dans la chaîne respiratoire, et le magnésium est essentiel au repliement de l'ARN en une structure tertiaire stable. Malgré l'accumulation d'un grand nombre de structures métalloprotéiques à haute résolution dans la Banque de données sur les protéines, l'identification expérimentale des interactions métal-protéine reste longue, laborieuse et coûteuse.Par conséquent, la prédiction informatique des sites de liaison des métaux en fonction du niveau de résidus est devenue une stratégie alternative efficace.

Les méthodes existantes de prédiction des composés multimétalliques sont fortement limitées par leur architecture, tandis que les prédicteurs basés sur la structure reposent sur des programmes coûteux en calcul, ce qui freine leur application pratique. Si les modèles de langage protéique se sont révélés une méthode de prédiction prometteuse, leurs exigences de calcul importantes et leurs longs temps d'inférence limitent leur application pratique.

Pour résoudre ce problème, une équipe de recherche de l’Université des sciences et technologies de Hong Kong a proposé un cadre de réseau neuronal de fusion pour prédire les sites de liaison multi-métaux dans les séquences de protéines.Ce cadre utilise une architecture en deux étapes, combinant un réseau neuronal convolutif (CNN) et un réseau de fusion. Grâce à une fonction de perte sensible au déséquilibre, une évaluation intégrée et une architecture modulaire, il corrige efficacement le déséquilibre de classe entre les échantillons positifs et négatifs de différents métaux et leurs interactions complexes. Sa conception indépendante de la structure permet des prédictions holistiques rapides, robustes et de haute qualité sur de grands ensembles de données sans nécessiter d'entrée structurelle, ce qui accroît considérablement le potentiel de l'exploration des interactions métal-protéine.

La recherche connexe a été publiée sur bioRxiv sous le titre « Une approche de réseau neuronal de fusion modulaire pour prédire efficacement les sites de liaison multi-métaux dans les séquences de protéines ».

Points saillants de la recherche :
* Un cadre de réseau neuronal de fusion en deux étapes combinant CNN et réseau de fusion ;

En introduisant la fonction de perte d'entropie croisée binaire pondérée, le problème de déséquilibre de classe dans la prédiction du site de liaison métallique est traité efficacement.

Adresse papier:

https://go.hyper.ai/Y7DNU

Suivez le compte officiel et répondez « Sites de liaison multi-métaux » pour obtenir le PDF complet

Autres articles sur les frontières de l'IA : 

https://hyper.ai/papers

Construire un ensemble de données stable et représentatif

Afin de construire un ensemble de données de haute qualité adapté à la formation et à l’évaluation, l’équipe de recherche a effectué un traitement secondaire basé sur la base de données MbPA existante.Tout d'abord, un ensemble complet de données sur les protéines de liaison aux métaux a été extrait de la base de données MbPA. Au total, 91 593 protéines capables de lier le zinc (Zn), le fer (Fe) et le magnésium (Mg) ont été criblées, conservant les informations vérifiées sur leurs sites de liaison et les ions métalliques correspondants. Sur cette base, l'équipe de recherche a ensuite finalisé la normalisation des séquences et le codage des entiers (longueur uniforme de 500 acides aminés), l'annotation multi-marqueurs des sites de liaison, l'échantillonnage stratifié (ensemble de test 15%, ensemble de développement 85%) et le traitement du déséquilibre de classe. Ce traitement impliquait un prétraitement en trois étapes et un processus d'apprentissage indépendant pour traiter le déséquilibre de classe tout en implémentant simultanément des prédicteurs spécifiques aux métaux. Le processus d'implémentation était le suivant : génération de marqueurs spécifiques aux métaux, comptage des échantillons positifs et perte d'entropie croisée binaire pondérée.

* MbPA (Metal Binding Protein Atlas) est une bibliothèque de ressources sur les protéines de liaison aux métaux. La base de données contient actuellement 106 373 entrées et 440 187 sites, impliquant 54 ions métalliques et 8 169 espèces.


Un sous-ensemble de données protéiques pouvant lier divers ions métalliques

Cadre d'apprentissage profond en deux étapes et fusion modulaire

L’équipe de recherche a proposé un cadre d’apprentissage profond en deux étapes basé sur des séquences pour prédire efficacement les sites de liaison multi-métaux dans les séquences de protéines.L'idée générale est d'entraîner d'abord des modèles de prédiction indépendants pour des ions métalliques individuels afin de générer des cartes de probabilité pour des résidus individuels. Ces cartes sont ensuite intégrées via un réseau de fusion léger pour modéliser les dépendances intermétalliques et, in fine, optimiser les performances de prédiction.

Dans la première étape, un réseau neuronal convolutionnel unidimensionnel (CNN monométallique) a été utilisé pour chaque métal (Zn, Fe et Mg) afin de prédire la probabilité d'association positionnelle d'un ion métallique spécifique. Après le traitement mentionné ci-dessus, chaque séquence protéique a été représentée uniformément en 500 dimensions. Les résidus codés en nombres entiers ont été mappés sur une couche d'inclusion d'un vecteur d'apprentissage à 64 dimensions. La séquence a ensuite été passée à travers quatre couches Conv1D (nombre de noyaux de convolution : 512, 256, 128, 64, tailles de noyau : 15, 7, 5, 3), en utilisant une fonction d'activation ReLU (Unité Rectangulaire Uniforme). Une couche de perte avec un taux de perte de 0,3 a été ajoutée après les couches convolutionnelles. Après extraction et régularisation des caractéristiques convolutionnelles, les caractéristiques de la séquence ont été entrées dans une couche entièrement connectée distribuée dans le temps, qui génère la probabilité de liaison prédite bit par bit grâce à une fonction d'activation sigmoïde.

Cadre général

Phase II,L’équipe de recherche a conçu un réseau de fusion intégré multi-métaux (réseau Fusion).Les prédictions pour les trois métaux sont concaténées dans un tenseur de forme (Lmax, M), où Lmax = 500 acides aminés et M = 3 canaux métalliques. Ce tenseur est alimenté par une couche entièrement connectée comportant 256 unités cachées et des activations ReLU, apprenant les interactions non linéaires entre les caractéristiques spécifiques des métaux à chaque niveau de résidu. Une couche de perte avec un taux de perte de 0,2 est ensuite introduite pour régulariser les poids de fusion et éviter le surapprentissage. Enfin, des sorties sigmoïdes M sont utilisées dans la couche dense afin de fournir des probabilités de liaison précises pour Zn, Fe et Mg pour chaque résidu. Le réseau de fusion utilise l'entropie croisée binaire standard comme fonction de perte et est entraîné avec l'optimiseur Adam, ce qui lui permet d'apprendre à corriger les erreurs de corrélation et d'améliorer la précision globale.

De plus, la particularité du cadre est qu’il s’appuie entièrement sur les données de séquences protéiques, éliminant ainsi la dépendance à la structure.Cela permet de réaliser l'ensemble du processus en moins d'une heure sur un seul GPU NVIDIA A800, et son efficacité contribue à accélérer le processus expérimental et le réglage des paramètres en temps réel.

Évaluation expérimentale complète multidimensionnelle

L’équipe de recherche a utilisé des indicateurs multidimensionnels pour mener une évaluation expérimentale.Cette mesure combinée inclut la précision, le rappel, le score F1 et le coefficient de corrélation de Matthews (MCC). Un seuil de décision τ est appliqué à la probabilité de liaison prédite : si la probabilité prédite d'un résidu dépasse τ, il est classé comme site de liaison aux métaux ; sinon, il est classé comme site de liaison aux non-métaux. Comparé aux méthodes d'évaluation qui ne prennent en compte qu'une seule valeur, ce système de mesures combinées reflète mieux la performance réelle du cadre dans les scénarios de déséquilibre de classe.

Français La figure (a) ci-dessous montre la relation entre chaque métal et le score F1 macro-moyen et le seuil de décision τ. Les résultats montrent que Fe se comporte bien en prédiction, avec des scores F1 supérieurs à 0,81 lorsque les valeurs τ varient de 0,25 à 0,60. Les modèles à métal unique pour Zn et Mg atteignent également des scores F1 supérieurs à 0,79 dans les plages τ = 0,25-0,50 et 0,25-0,60. Globalement, le score F1 macro-moyen culmine à 0,855 lorsque le seuil est fixé entre 0,40-0,45, ce qui est le choix optimal pour équilibrer la précision et le rappel pour tous les métaux. La figure (b) montre la relation entre MCC et seuil, démontrant une fois de plus que le cadre peut toujours atteindre un bon équilibre même en cas de déséquilibre de classe sévère.

La figure (c) présente les courbes de précision-rappel pour les trois métaux. La prédiction du Fe conserve une grande précision à des niveaux de rappel élevés, démontrant ainsi sa pertinence pour un criblage complet des sites. Les indices de prédiction du Zn et du Mg sont également performants, démontrant la robustesse du cadre pour les applications nécessitant un rappel modérément élevé et une précision soutenue.

Enfin, la figure (d) montre la précision, le rappel et le score F1 de différentes prédictions de métaux aux deux seuils optimaux de τ = 0,40 et 0,45.Les résultats montrent que le cadre peut être ajusté de manière flexible en fonction des caractéristiques des différents métaux. Il peut être utilisé dans des scénarios de criblage à priorité de couverture et peut également répondre à des besoins de vérification expérimentale de haute précision.

Pour évaluer la contribution de chaque composant architectural, l'équipe de recherche a également mené des expériences d'ablation systématiques pour vérifier deux principes de conception fondamentaux :(1) La fonction de perte d'entropie croisée binaire pondérée est essentielle pour gérer le problème de déséquilibre de classe dans la prédiction du site de liaison métallique. (2) L'architecture du réseau de fusion améliore la cohérence des prédictions et capture les relations croisées entre métaux qui ne peuvent pas être exploitées indépendamment par des modèles individuels.

Avec la couche CNN simple la plus élémentaire, le F1 moyen n'était que de 0,265. Les performances se sont considérablement améliorées avec l'augmentation du nombre de couches convolutives. Un CNN à trois couches a porté le F1 moyen à 0,840, démontrant ainsi le rôle crucial de l'extraction hiérarchique de caractéristiques. L'introduction de la fonction d'abandon a porté le F1 à 0,856, évitant ainsi le surapprentissage et améliorant la généralisation. Pour remédier au déséquilibre des classes, l'équipe de recherche a conçu une fonction de perte d'entropie croisée binaire pondérée, qui a considérablement amélioré le rappel sans compromettre la précision globale. Enfin, l'ajout d'une couche de fusion a encore amélioré le F1 moyen à 0,859. Cette couche de fusion modélise efficacement les dépendances intermétalliques, améliorant ainsi la précision et la robustesse des prédictions au niveau des résidus.


Résultats de l'expérience d'ablation

Un nouveau moteur pour accélérer l'exploration des interactions métal-protéine

Ce nouveau cadre a fait progresser l'annotation des métalloprotéines et devient un moteur essentiel pour accélérer l'analyse des interactions métal-protéine. L'importance de l'exploration de ces interactions en biologie est indéniable, et cette orientation de recherche a suscité un intérêt considérable. Des chercheurs de diverses équipes explorent activement de nouvelles approches et de nouveaux outils sous des angles variés. Deux réalisations de grande qualité sont présentées ci-dessous :

Deux outils, Metal3D et Metal1D, développés par l'École polytechnique fédérale de Lausanne (EPFL), ont été développés pour améliorer la prédiction de la localisation des ions zinc dans les structures protéiques. Le cadre Metal3D peut être étendu à d'autres métaux en modifiant les données d'apprentissage. La recherche associée, intitulée « Metal3D : Un cadre général d'apprentissage profond pour la prédiction précise de la localisation des ions métalliques dans les protéines », a été publiée dans Nature Communications.
Adresse du document :
https://www.nature.com/articles/s41467-023-37870-6

Une étude publiée sur arXiv et intitulée « Apprentissage multimodal interprétable pour la liaison protéine-métal tumorale : progrès, défis et perspectives » résume systématiquement les dernières avancées et les défis actuels liés à l'utilisation de l'apprentissage automatique pour prédire la liaison protéine-métal tumorale. Elle propose également deux pistes prometteuses pour la conception de médicaments à base de métaux efficaces : l'intégration des données d'interactions protéine-protéine pour fournir des informations structurelles sur la liaison métallique ; et la prédiction des modifications structurelles des protéines tumorales après la liaison métallique.
Adresse du document :
https://arxiv.org/abs/2504.03847

Liens de référence :
1.https://pubs.acs.org/doi/10.1021/cr300014x