HyperAI

Une Avancée Majeure Dans Le PLM ! Les Derniers Résultats De L'université Jiao Tong De Shanghai Et Du Shanghai AI Lab Ont Été Sélectionnés Pour NeurIPS 24. ProSST Intègre Efficacement Les Informations Sur La Structure Des Protéines

特色图像

La protéine est une molécule clé de la vie. Sa séquence détermine sa structure, et sa structure détermine sa fonction. La fonction d’une protéine est étroitement liée à sa structure tridimensionnelle. Au cours des dernières décennies, les scientifiques ont utilisé des techniques telles que la cristallographie aux rayons X et la résonance magnétique nucléaire pour résoudre des milliers de structures protéiques, fournissant des indices importants permettant aux gens de comprendre les fonctions des protéines. Cependant, face à des millions de protéines, la tâche d’analyser les structures de chacune d’entre elles est extrêmement ardue.

Inspirés par les modèles de langage pré-entraînés dans le domaine du traitement du langage naturel, les modèles de langage protéique pré-entraînés (PLM) ont vu le jour.En apprenant sur des données massives de séquences de protéines non marquées, PLM est capable de capturer les modèles et les interactions complexes des séquences de protéines, ce qui a apporté des progrès révolutionnaires dans la prédiction de la fonction des protéines, l'analyse structurelle et l'identification des interactions protéine-protéine.

Cependant, la plupart des PLM se concentrent sur la modélisation des séquences protéiques et ignorent l’importance des informations structurelles, principalement en raison du manque de données structurelles. Avec l'émergence de technologies telles qu'AlphaFold et RoseTTAFold, la précision de la prédiction de la structure des protéines a été considérablement améliorée et les chercheurs ont commencé à explorer comment intégrer efficacement les informations sur la structure des protéines dans le PLM pour former des modèles de langage pré-entraînés à grande échelle et sensibles à la structure.

Par exemple, le groupe de recherche du professeur Hong Liang de l'Institut des sciences naturelles/École de physique et d'astronomie/Institut d'études avancées de Zhangjiang/École de pharmacie de l'Université Jiao Tong de Shanghai, du chercheur adjoint Zhou Bingxin de l'Université Jiao Tong de Shanghai et du jeune chercheur Tan Pan du Laboratoire d'intelligence artificielle de Shanghai ont récemment développé avec succès un modèle de langage protéique pré-entraîné avec des capacités de connaissance de la structure - ProSST.

Plus précisément, le modèle est pré-entraîné sur un grand ensemble de données de 18,8 millions de structures protéiques, convertissant les structures protéiques en séquences de jetons structurées qui sont entrées dans le modèle Transformer avec les séquences d'acides aminés. En adoptant un mécanisme d'attention démêlé, ProSST peut intégrer efficacement ces deux types d'informations, surpassant ainsi considérablement les modèles existants dans les tâches d'apprentissage supervisé telles que la prédiction de la stabilité thermique, la prédiction de la liaison des ions métalliques, la prédiction de la localisation des protéines et la prédiction de l'annotation GO.

La recherche, intitulée « ProSST : modélisation du langage des protéines avec structure quantifiée et attention distraite », a été sélectionnée pour NeurIPS 2024.

Points saillants de la recherche :

* Cette étude propose un quantificateur de structure protéique capable de convertir la structure protéique en une série d’éléments structurels discrets. Ces éléments structurels discrétisés peuvent caractériser efficacement les informations structurelles locales des résidus dans les protéines.

* Cette étude a proposé un mécanisme d'attention découplée pour apprendre la relation entre la séquence d'acides aminés des protéines et la structure tridimensionnelle, favorisant ainsi une intégration efficace de l'information entre la séquence de discrétisation de la structure et la séquence d'acides aminés

* Comparé à d'autres modèles de pré-entraînement de grandes protéines tels que la série ESM et SaProt, le nombre de paramètres de ProSST n'est que de 110 M, ce qui est bien inférieur aux 650 M de la série ESM classique. Cependant, ProSST a montré les meilleures performances dans presque toutes les tâches en aval des protéines, reflétant la supériorité de la conception de l'architecture du modèle ProSST.

* ProSST se classe premier sur le ProteinGym Benchmark, la plus grande plateforme de prédiction d'effets de mutation à zéro coup. Dans le dernier ProteinGym, il s'agit du premier modèle open source à atteindre une corrélation de Spearman de prédiction de performance de mutation à zéro coup de plus de 0,5.

Adresse du document :
https://neurips.cc/virtual/2024/poster/96656
Suivez le compte officiel et répondez « ProSST » pour obtenir le PDF complet

Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s

Basé sur l'ensemble de données de pré-formation non supervisée du secteur, couvrant 18,8 millions de structures protéiques

Afin de réaliser un pré-entraînement non supervisé de ProSST, l'équipe de recherche a principalement utilisé les ensembles de données suivants :

* Ensemble de données AlphaFoldDB :Une version réduite de 90% a été sélectionnée parmi plus de 214 millions de structures protéiques, totalisant 18,8 millions de structures, dont 100 000 structures ont été sélectionnées au hasard comme ensemble de validation pour surveiller et ajuster la perplexité pendant la phase de formation.

* Ensemble de données CATH43-S40 :Il contient 31 885 domaines cristallins de protéines qui ont été dédupliqués à l'aide de la similarité de séquence 40%. Après avoir supprimé les structures dépourvues d'atomes clés (tels que Cα et N), il reste 31 270 enregistrements, parmi lesquels 200 structures sont sélectionnées au hasard comme ensemble de validation pour surveiller et optimiser les performances du modèle.

* Ensemble de données de structure locale CATH43-S40 :Il s'agit de structures locales extraites de l'ensemble de données CATH43-S40. En construisant une méthode de graphe en étoile, 4 735 677 structures locales sont extraites pour l'intégration de la représentation de l'encodeur de structure et l'analyse de clustering du livre de codes de structure.

* Ensemble de données de référence ProteinGYM :Utilisé pour évaluer la capacité de ProSST à prédire les effets de mutation à échantillon zéro, il comprend 217 analyses expérimentales, chacune contenant les informations de séquence et de structure de la protéine, avec une attention particulière accordée à 66 ensembles de données axés sur la stabilité thermique, en utilisant le coefficient de Spearman, Top-recall et NDCG comme indicateurs d'évaluation des performances.

ProSST : PLM avec des fonctionnalités de prise en compte de la structure, incluant deux modules clés

ProSST (Protein Sequence-Structure Transformer) développé dans cette étude est un modèle de langage protéique pré-entraîné avec des capacités de prise en compte de la structure. Comme le montre la figure ci-dessous,ProSST se compose principalement de deux modules :Le module de quantification de structure et le modèle Transformer avec attention démêlée séquence-structure.

Architecture du modèle ProSST

Module de quantification structurelle : sérialiser et quantifier la structure des protéines en une série d'éléments structurels

L'objectif du module de quantification de structure est de convertir la structure locale des résidus d'une protéine en étiquettes discrètes. Initialement, la structure locale est codée dans un vecteur dense par un encodeur de structure pré-entraîné. Par la suite, un modèle de clustering k-means pré-entraîné attribue une étiquette de catégorie à la structure locale en fonction du vecteur codé. Enfin, des étiquettes de classe sont attribuées aux résidus en tant que jetons de structure.

* Par rapport à la structure globale de la protéine, la description de la structure locale est plus granulaire

Le processus de quantification structurelle

Plus précisément, cette étude a utilisé un perceptron vectoriel géométrique (GVP) comme encodeur de structure locale. Comme le montre la figure A ci-dessous, cette étude a intégré le GVP avec un décodeur contenant un perceptron multicouche sensible à la position (MLP) pour former un modèle d'autoencodeur. L'ensemble du modèle a été formé à l'aide de protéines cibles pré-entraînées et débruitées, et après la formation sur l'ensemble de données CATH, les chercheurs ont uniquement utilisé la sortie moyenne groupée de l'encodeur comme représentation finale de la structure.

Formation de l'encodeur de structure

Ensuite, comme le montre la figure B ci-dessous, l’encodeur de structure locale de cette étude quantifie le vecteur dense représentant la structure de la protéine en balises discrètes. À cette fin, les chercheurs ont utilisé l'encodeur de structure GVP pour intégrer les structures locales de tous les résidus de l'ensemble de données CATH dans un espace latent continu, puis ont appliqué l'algorithme k-means pour identifier K centroïdes dans cet espace latent, qui constituent le livre de codes de structure.

Regroupement et étiquetage des structures locales

Enfin, pour le résidu en position i dans la séquence protéique, nous construisons d'abord un graphe Gi basé sur sa structure locale, puis l'intégrons dans un vecteur continu ri en utilisant l'encodeur de structure GVP. En général, comme le montre la figure C ci-dessous, la structure entière de la protéine peut être sérialisée et quantifiée en une série de jetons de structure.

Conversion des structures protéiques en séquences d'éléments structuraux

Attention découplée séquence-structure : permettre au modèle d'apprendre la relation entre résidus et résidus, et entre résidus et structures

Cette étude a été inspirée par le modèle DeBerta, qui vise à apprendre la relation entre la séquence de résidus (séquence d'acides aminés) et la séquence structurelle, ainsi que la position relative en découplant l'attention, afin que le modèle puisse traiter la séquence protéique et les informations structurelles, et améliorer les performances et la stabilité du modèle en découplant.

Plus précisément, pour le ième résidu dans la séquence primaire d'une protéine, il peut être représenté par trois éléments : Ri représente le codage du jeton de séquence d'acides aminés, Sje  Représente le jeton de structure locale codant les acides aminés, tandis que Pi|j  Le codage du jeton du ième résidu à la position j. Comme le montre la figure ci-dessous, le mécanisme d'attention découplé séquence-structure de cette étude comprend cinq types : résidu à résidu (R à R), résidu à structure (R à S), résidu à position (R à P), structure à résidu (S à R) et position à résidu (P à R). Cela permet au modèle de capturer la relation complexe entre la séquence et la structure des protéines de manière plus détaillée.

Architecture du modèle ProSST

ProSST est un leader en matière de performances et l'inclusion d'informations structurelles améliore considérablement les capacités de caractérisation des modèles

Pour vérifier l'efficacité de ProSST dans la prédiction efficace des mutants à tir nul, l'étude l'a comparé à une variété de modèles de pointe, notamment des modèles basés sur la séquence, des modèles structure-séquence, des modèles de repliement inverse, des modèles évolutifs et des modèles d'ensemble.

Comme le montre le tableau suivant, Dans le benchmark ProteinGYM, ProSST surpasse tous les modèles comparés et atteint la meilleure stabilité. De plus, ProSST (-structure) fonctionne de manière comparable à d'autres modèles de séquence, ce qui confirme que les performances améliorées de ProSST sont principalement attribuées à son intégration efficace des informations structurelles.
* ProSST (-structure) n'inclut pas les modules d'informations de structure

Comparaison des performances de prédiction de mutation zéro-shot de ProSST et d'autres modèles

Pour l'apprentissage supervisé, cette étude a sélectionné quatre tâches principales en aval des protéines : prédiction de la stabilité thermique (thermostabilité), prédiction de la liaison des ions métalliques (liaison des ions métalliques), prédiction de la localisation des protéines (DeepLoc) et prédiction de l'annotation GO (MF/BP/CC), et a comparé ProSST avec d'autres modèles de langage protéique tels que ESM-2, ESM-1b, SaProt, MIF-ST, GearNet, etc. Les résultats sont présentés dans le tableau 2 ci-dessous.ProSST a obtenu les meilleurs résultats parmi tous les modèles, obtenant 5 premières places et 1 deuxième place dans les 6 réglages.

Comparaison du réglage fin supervisé sur les tâches en aval

Modèle de langage des protéines : un pont entre le big data et les sciences de la vie

Depuis la sortie de grands modèles de langage tels que ChatGPT, les modèles pré-entraînés (PLM) basés sur des séquences de protéines à grande échelle sont devenus un sujet de recherche d'actualité dans le domaine des sciences de la vie. Actuellement, la recherche PLM se divise principalement en deux directions :

* PLM amélioré par récupération : ce type de modèle intègre des informations d'alignement de séquences multiples (MSA) pendant la phase de formation ou de prédiction, telles que MSATransformer et Tranception, pour améliorer les performances de prédiction.

* PLM multimodal : Contrairement aux modèles qui utilisent uniquement les informations de séquence, le PLM multimodal intègre des informations supplémentaires telles que la structure des protéines. Par exemple, le modèle ProSST décrit dans cet article peut améliorer la capacité de représentation du modèle en fusionnant la séquence de jeton structurel avec la séquence d'acides aminés.

En termes de PLM optimisé par la recherche,En avril de cette année, une équipe de recherche de l'Université Fudan et d'autres institutions a lancé PLMSearch, une méthode de recherche de protéines homologues basée sur la saisie de séquences. Cette étude peut utiliser des modèles de langage protéique pré-entraînés pour obtenir des représentations profondes et prédire des similitudes structurelles. Les recherches connexes ont été publiées dans Nature Communication.

Lien vers l'article :

https://doi.org/10.1038/s41467-024-46808-5

En termes de PLM multimodal,L'équipe du professeur Huajun Chen de l'Université du Zhejiang a récemment proposé un nouveau modèle de langage protéique de débruitage (DePLM) pour l'optimisation des protéines. Ce modèle peut améliorer les performances des tâches d’optimisation des protéines en optimisant les informations évolutives. Les résultats associés ont été sélectionnés avec succès pour la conférence NeurIPS 24.

Plus de détails : Sélectionné pour NeurIPS 24 ! Une équipe de l'Université du Zhejiang a proposé un nouveau modèle de langage protéique de débruitage DePLM, qui prédit les effets de mutation mieux que les modèles SOTA

À mesure que ces études révolutionnaires continuent d’émerger, le PLM devient progressivement un outil puissant pour explorer des domaines inconnus des sciences de la vie. Il présente un grand potentiel dans des domaines tels que la prédiction de la fonction des protéines, la prédiction des interactions et la prédiction des associations phénotypiques, et devrait fournir de nouvelles idées pour le traitement des maladies et l’amélioration de la vie humaine.