HyperAI

Sélectionné Pour L'acl 2024 ! Pour Parvenir À Une Interprétation Intermodale Des Données Protéiques Et Des Informations Textuelles, L'équipe De Wang Xiang De L'ustc a Proposé Le Cadre De Génération De Protéines-textes ProtT3.

特色图像

L’exploration des mystères de la structure dynamique des protéines n’est pas seulement une étape clé dans la promotion du développement de nouveaux médicaments, mais également une pierre angulaire importante pour la compréhension des processus vitaux. Cependant, la complexité des protéines rend difficile la capture et l’analyse directes de leurs informations structurelles profondes. Comment convertir des données biologiques complexes en expressions intuitives et faciles à comprendre a toujours été un défi majeur dans le domaine de la recherche scientifique.

Avec le développement rapide des modèles de langage (LM), une idée innovante a vu le jour :Étant donné que les modèles linguistiques peuvent apprendre et extraire des informations textuelles à partir de grandes quantités de données, peuvent-ils apprendre à « lire » les informations sur les protéines à partir des données sur les protéines et convertir directement les informations sur la structure dynamique des protéines en descriptions textuelles faciles à comprendre pour les humains ?

Cette idée prometteuse a rencontré de nombreux défis dans son application pratique. Par exemple, le modèle de langage est pré-entraîné sur un corpus de textes de séquences de protéines. Bien qu'il dispose de fortes capacités de traitement de texte, il est incapable de comprendre le « langage » non humain de la structure des protéines. En revanche, les modèles de langage protéique (PLM) sont pré-entraînés sur des corpus de séquences protéiques et présentent d'excellentes capacités de compréhension et de génération de protéines.Mais sa limitation est tout aussi importante : le manque de capacités de traitement de texte.

Si nous pouvons combiner les avantages des PLM et des LM pour construire une nouvelle architecture de modèle qui peut non seulement comprendre en profondeur la structure des protéines, mais également connecter de manière transparente les informations textuelles, cela aura un impact profond sur le développement de médicaments, la prédiction des propriétés des protéines, la conception moléculaire et d'autres domaines. Cependant,La structure des protéines et le texte du langage humain appartiennent à des modalités de données différentes, et il n’est pas facile de briser les barrières et de les fusionner.

À cet égard,Wang Xiang de l'Université des sciences et technologies de Chine, en collaboration avec l'équipe de Liu Zhiyuan de l'Université nationale de Singapour et l'équipe de recherche de l'Université d'Hokkaido, a proposé un nouveau cadre de modélisation de texte protéique ProtT3.Le cadre combine PLM et LM avec des différences de modalité via un projecteur intermodal, où PLM est utilisé pour la compréhension des protéines et LM est utilisé pour le traitement de texte. Pour obtenir un réglage fin efficace, les chercheurs ont incorporé LoRA dans LM pour réguler efficacement le processus de génération de protéines en texte.

En outre, les chercheurs ont également établi des tâches d’évaluation quantitative pour les tâches de modélisation de texte protéique, notamment le sous-titrage des protéines, la réponse aux questions sur les protéines (AQ protéique) et la récupération de texte protéique. ProtT3 a obtenu d’excellentes performances dans les trois tâches.

La recherche, intitulée « ProtT3 : Protein-to-Text Generation for Text-based Protein Understanding », a été sélectionnée pour la conférence phare ACL 2024.

Points saillants de la recherche :

* Le cadre ProtT3 peut combler le fossé de modalité entre le texte et la protéine et améliorer la précision de l'analyse de la séquence protéique

* Dans la tâche de sous-titrage des protéines, le score BLEU-2 de ProtT3 sur les ensembles de données Swiss-Prot et ProteinKG25 est supérieur de plus de 10 points à la valeur de référence

* Dans la tâche de réponse aux questions sur les protéines, les performances de correspondance exacte de ProtT3 sur l'ensemble de données PDB-QA se sont améliorées de 2,5%

* Dans la tâche de récupération de texte protéique, la précision de récupération de ProtT3 sur les ensembles de données Swiss-Prot et ProteinKG25 est supérieure de plus de 14% à la ligne de base.

Adresse du document :

https://arxiv.org/abs/2405.12564

Adresse de téléchargement du jeu de données :
https://go.hyper.ai/j0wvp

Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s

Construction et optimisation de trois ensembles de données majeurs pour la recherche sur les protéines

Les chercheurs ont sélectionné trois ensembles de données : Swiss-Prot, ProteinKG25 et PDB-QA.

Statistiques de l'ensemble de données textuelles sur les protéines

Comme le montre le tableau ci-dessus,Swiss-Prot est une base de données de séquences protéiques avec annotations textuelles.Les chercheurs ont traité l’ensemble de données et exclu les noms de protéines des annotations textuelles pour éviter toute fuite d’informations. La description textuelle générée relie les annotations de la fonction, de l'emplacement et de la famille des protéines.

ProteinKG25 est un graphe de connaissances dérivé de la base de données Gene Ontology.Les chercheurs ont d’abord agrégé des triplets de la même protéine, puis ont rempli les informations sur la protéine dans un modèle de texte prédéfini pour convertir ses triplets en texte libre.

PDB-QA est un ensemble de données de réponses aux questions protéiques à tour unique dérivé de RCSB PDB2.Contient 30 modèles de questions sur la structure des protéines, leurs propriétés et des informations supplémentaires. Comme le montre le tableau ci-dessous, pour une évaluation plus précise, les chercheurs ont divisé les questions en quatre catégories en fonction du format de la réponse (chaîne ou nombre) et du contenu (structure/attribut ou informations supplémentaires).

Échantillons de paires QA dans l'ensemble de données PDB-QA

ProtT3 : une architecture de modèle innovante de génération de protéines en texte

Comme le montre la figure a ci-dessous,ProtT3 se compose d'un modèle de langage protéique (PLM), d'un projecteur intermodal (Cross-ModalProjector), d'un modèle de langage (LM) et d'un module LoRA.Réguler efficacement le processus de génération de protéines en texte.

Cadre ProtT3

Parmi eux, le modèle de langage protéique sélectionné par les chercheurs est l’ESM-2150M, qui est utilisé pour la compréhension des protéines ; le projecteur intermodal sélectionné est Q-Former, qui est utilisé pour combler les différences modales entre PLM et le modèle de langage LM, puis mapper la représentation des protéines à l'espace textuel de LM ; le modèle de langage sélectionné est Galactica1.3B, qui est utilisé pour le traitement de texte ; afin de maintenir l'efficacité de l'adaptation en aval, les chercheurs ont également incorporé LoRA dans le modèle de langage pour obtenir un réglage fin efficace.

Comme le montre la figure b,ProtT3 utilise deux phases de formation pour améliorer la modélisation efficace des textes protéiques.Il s'agit de l'entraînement à la récupération de protéines en texte et de l'entraînement à la génération de protéines en texte.

Deux phases d'entraînement de ProtT3

* Phase 1 : Formation à la récupération de texte protéique

Comme le montre la figure a ci-dessous, le projecteur intermodal Q-Former se compose de deux transformateurs : des transformateurs de protéines pour le codage des protéines et des transformateurs de texte pour le traitement du texte. Deux transformateurs partagent l’auto-attention pour permettre l’interaction entre les protéines et le texte.

Architecture Q-Former et trois tâches de formation

Les chercheurs ont formé ProtT3 sur un ensemble de données combiné de Swiss-Prot et ProteinKG25 pour la récupération de texte protéique.Il s'agit de trois tâches : le contraste protéine-texte, la correspondance protéine-texte (PTM) et le sous-titrage des protéines (PCap).

* Phase 2 : Formation à la génération de protéines en texte

Les chercheurs ont connecté le projecteur intermodal à un modèle de langage (LM) et ont introduit la représentation protéique Z dans le LM afin de conditionner le processus de génération de texte par des informations protéiques. Parmi eux, les chercheurs ont utilisé une couche linéaire pour projeter Z sur la même dimension que l'entrée du modèle de langage, ont formé ProtT3 pour chaque ensemble de données généré séparément et ont ajouté différentes invites de texte après la représentation des protéines pour contrôler davantage le processus de génération.

De plus, les chercheurs ont introduit LoRA et l'ont affiné individuellement sur 3 ensembles de données sur la tâche de génération de protéines en texte.

Un outil polyvalent dans le domaine des protéines, évaluant les performances de ProtT3 dans 3 tâches majeures

Pour évaluer les performances de ProtT3,Les chercheurs ont testé le système dans trois tâches : le sous-titrage des protéines, l’assurance qualité des protéines et la récupération du texte des protéines.

Plus proche de la véritable description des protéines, ProtT3 a une plus grande précision

Les chercheurs ont évalué les performances des modèles Galactica1.3B, ProtT3 avec MLP Proj., ProtT3 sans étape 1 et ProtT3 affinés par LoRA sur les tâches de sous-titrage des protéines sur les ensembles de données Swiss-Prot et ProteinKG25, et ont utilisé BLEU, ROUGE et METEOR comme mesures d'évaluation.

* ProtT3 avec MLP Proj. : Une variante de ProtT3 qui remplace le projecteur multimodal de ProtT3 par MLP

* ProtT3 sans étape 1 : une variante de ProtT3 qui ignore l'étape d'entraînement 1 de ProtT3

Comme le montre la figure ci-dessous, comparé au Galactica1.3B optimisé par LoRA,ProtT3 améliore le score BLEU-2 de plus de 10 points.L’importance de l’introduction d’un modèle de langage protéique et l’efficacité de ProtT3 dans la compréhension de l’apport protéique sont démontrées de manière intuitive. De plus, ProtT3 surpasse ses deux variantes dans différentes mesures, ce qui montre l'avantage d'utiliser le projecteur Q-Former et l'étape de formation 1.

Performance des sous-titres protéiques, le gras indique la meilleure performance

La figure ci-dessous montre trois exemples de génération de sous-titres de protéines de Ground truth, ProtT3 et Galactica. Dans l'exemple Q8CFG4, le contenu d'annotation de ProtT3 a identifié plus précisément la famille DMRT, alors que Galactica ne l'a pas fait. Dans le cas de P46427, les deux modèles n’ont pas réussi à identifier la fonction de la protéine, mais ProtT3 a fait une prédiction plus précise de la famille de protéines. Dans le cas de Q9LY66, les deux modèles ont prédit avec succès l’emplacement subcellulaire et la famille de protéines. ProtT3 va encore plus loin dans la prédiction de la fonction des protéines, qui est plus proche de la véritable description.

Exemple de sous-titrage de protéines de Swiss-Prot. La partie bleue correspond exactement à la situation réelle et le diagramme de structure des protéines est généré par AlphaFold2

La précision est 141 % supérieure à celle du modèle de base. TP3T, ProtT3 a une meilleure capacité de récupération de texte protéique

Les chercheurs ont évalué les performances de ProtT3 dans la récupération de texte protéique sur les ensembles de données Swiss-Prot et ProteinKG25, en utilisant la précision et Recall@20 comme mesures d'évaluation, et ont adopté ProtST et ProteinCLAP comme modèles de base.

Comme le montre le tableau suivant,La précision de ProtT3 est supérieure de plus de 14% à celle du modèle de base.Cela suggère que ProtT3 est supérieur dans l'alignement des protéines avec leurs descriptions textuelles correspondantes. aussi,La correspondance protéine-texte (PTM) a amélioré la précision de ProtT3 de 1%-2%,Cela est dû au fait que le PTM permet aux informations sur les protéines et le texte d'interagir dans les premières couches de Q-Former, obtenant ainsi une mesure de similarité protéine-texte plus fine.Le sous-titrage des protéines (PCap) améliore la précision de récupération de ProtT3 d'environ 2%.Cela est dû au fait que PCap encourage les jetons de requête à extraire les informations protéiques les plus pertinentes pour l'entrée de texte, ce qui facilite l'alignement protéine-texte.
* ProtT3 sans PTM : ignorez l'étape PTM de ProtT3

* ProtT3 sans PCap : ignorez l'étape PCap de ProtT3

Performances de récupération de texte protéique. Le gras indique la meilleure performance, le souligné indique la deuxième meilleure performance. P2T est la récupération de protéines en texte, T2P est la récupération de texte en protéine

ProtT3 peut prédire la structure et les propriétés des protéines et possède de meilleures capacités de réponse aux questions

Les chercheurs ont évalué les performances de réponse aux questions protéiques de ProtT3 sur l'ensemble de données PDB-QA, en sélectionnant la correspondance exacte comme mesure d'évaluation et en utilisant Galactica1.3B affiné par LoRA comme modèle de base (LoRA ft).

Comme le montre la figure ci-dessous,Les performances de correspondance exacte de ProtT3 sont 2,51 supérieures à celles du TP3T de base.Il surpasse systématiquement la ligne de base dans la prédiction de la structure et des propriétés des protéines, démontrant que ProtT3 possède d'excellentes capacités multimodales pour comprendre les questions relatives aux protéines et au texte.

Performances de correspondance exacte de l'assurance qualité des protéines Classification AQ : SP signifie Structure/Propriété, SI signifie Informations supplémentaires et ft signifie Réglage fin

Comme le montre la figure ci-dessous, dans les 3 exemples de questions-réponses sur les protéines suivants, ProtT3 et Galactica ont tous deux répondu correctement aux deux premières questions sur les propriétés/structures des protéines, mais ont échoué à la troisième question qui nécessitait une réponse numérique. ProteinChat a eu des difficultés avec les 3 questions et n'a pu répondre à aucune d'entre elles.

Exemple de résultats d'assurance qualité des protéines dans l'ensemble de données PDBQA, avec les prédictions correctes en bleu

Déverrouiller le langage des protéines, l'exploration de pointe du LLM dans les sciences de la vie

Les recherches des chercheurs dans le domaine de la génération de protéines en texte peuvent permettre aux humains de débloquer des phénomènes biologiques complexes d’une manière compréhensible pour les humains. Le modèle de langage dans l’étude ci-dessus démontre non seulement une compréhension approfondie de « l’espace latent » des protéines, mais sert également de pont entre les tâches biomédicales et le traitement du langage naturel, ouvrant de nouvelles voies de recherche telles que le développement de médicaments et la prédiction de la fonction des protéines. Plus loin,Si de grands modèles linguistiques comportant des milliards de paramètres ou plus sont utilisés pour traiter des structures linguistiques plus complexes, on s’attend à ce que cela améliore l’exploration future des sciences de la vie à plusieurs niveaux.

Par exemple,L'équipe dirigée par Zhang Qiang et Chen Huajun de l'Université du Zhejiang a proposé un modèle de langage innovant appelé InstructProtein.Le modèle a la capacité de générer à la fois le langage humain et le langage protéique dans les deux sens : (i) en prenant la séquence protéique comme entrée, en prédisant sa description fonctionnelle textuelle ; et (ii) utiliser le langage naturel pour inciter à la génération de séquences protéiques.

Plus précisément, les chercheurs ont pré-entraîné le LLM sur des corpus de protéines et de langage naturel, puis ont utilisé un réglage d'instructions supervisé pour faciliter l'alignement des deux langages différents. InstructProtein fonctionne bien dans un grand nombre de tâches de génération de texte protéique bidirectionnel. Il a franchi une étape pionnière dans la prédiction de la fonction des protéines et la conception de séquences basées sur le texte, réduisant ainsi efficacement l’écart entre la compréhension des protéines et du langage humain.


L'article, intitulé « InstructProtein : Aligner le langage humain et protéique via l'instruction des connaissances », a été sélectionné pour l'ACL 2024.
* Article original :https://arxiv.org/pdf/2310.03269

aussi,L'équipe de l'Université de technologie de Sydney s'est également associée à l'équipe de recherche de l'Université du Zhejiang pour lancer conjointement le grand modèle de langage ProtChatGPT.Le modèle apprend et comprend la structure des protéines, permettant aux utilisateurs de télécharger des questions liées aux protéines et de participer à des conversations interactives, générant ainsi des réponses complètes.

Cadre ProtChatGPT

Plus précisément, les protéines passent d'abord par des encodeurs de protéines et un transformateur pré-entraîné au langage des protéines (PLP-former) pour générer des intégrations de protéines, puis ces intégrations sont projetées vers LLM via l'adaptateur de projection. Enfin, LLM combine les questions des utilisateurs avec des intégrations projetées pour générer des réponses informatives. Des expériences montrent que ProtChatGPT peut générer des réponses professionnelles aux protéines et aux questions correspondantes, injectant une nouvelle vitalité dans l'exploration approfondie et l'expansion des applications de la recherche sur les protéines.
* Article original :https://arxiv.org/abs/2402.09649

À l’avenir, lorsque les grands modèles linguistiques seront capables d’utiliser des données massives et riches pour déduire les lois sous-jacentes ou les structures profondes des protéines qui dépassent de loin les limites de la cognition humaine, leur potentiel sera grandement libéré. Nous espérons qu’avec les progrès continus de la technologie, les grands modèles de langage mèneront la recherche sur les protéines vers un avenir meilleur.