Sélectionné Pour NeurIPS 24 ! L'équipe De L'université Du Zhejiang a Proposé Un Nouveau Modèle De Langage Protéique De Débruitage, DePLM, Qui Prédit Mieux Les Effets De Mutation Que Le Modèle SOTA.

En tant que principal vecteur de fonctions biologiques, la diversité de la structure et de la fonction des protéines affichée au cours de milliards d’années d’évolution a offert d’importantes opportunités de progrès dans des domaines tels que la découverte de médicaments et la science des matériaux. Cependant, les propriétés inhérentes aux protéines existantes (comme la stabilité thermique) ne peuvent souvent pas répondre aux besoins réels dans de nombreux cas. Les chercheurs se concentrent donc sur l’optimisation des protéines pour améliorer leurs propriétés.
L'analyse traditionnelle des mutations profondes (DMS) et l'évolution dirigée (DE) reposent sur des techniques expérimentales humides coûteuses. En revanche, les méthodes basées sur l’apprentissage automatique peuvent évaluer rapidement les effets des mutations, ce qui est crucial pour une optimisation efficace des protéines.Parmi elles, une approche de recherche largement utilisée consiste à utiliser les informations évolutives pour tester les effets des mutations.Les informations évolutives peuvent être utilisées pour déduire l’effet d’une mutation par la probabilité qu’un acide aminé apparaisse à une certaine position dans une séquence protéique. Pour calculer la probabilité associée à la mutation d’un acide aminé en un autre, les méthodes courantes utilisent des modèles de langage protéique (PLM) formés sur des millions de séquences protéiques pour capturer des informations évolutives de manière auto-supervisée.
Cependant, les approches existantes négligent souvent deux aspects essentiels :- Premièrement, les méthodes existantes ne parviennent pas à éliminer les informations évolutives non pertinentes. L’évolution optimise simultanément plusieurs caractéristiques pour répondre aux besoins de survie, ce qui obscurcit souvent l’optimisation des caractéristiques cibles. Deuxièmement, les objectifs d’apprentissage actuels contiennent des informations spécifiques à l’ensemble de données, qui s’adaptent souvent trop aux données de formation actuelles, limitant ainsi la capacité du modèle à se généraliser à de nouvelles protéines.
Pour relever ces défis, le professeur Chen Huajun, le Dr Zhang Qiang et d'autres membres de l'École d'informatique et de technologie de l'Université du Zhejiang, du Collège international de l'Université du Zhejiang et du Centre international d'innovation scientifique et technologique de l'Université du Zhejiang à Hangzhou ont proposé conjointement un nouveau modèle de langage protéique de débruitage (DePLM) optimisé pour les protéines.La clé est de considérer les informations évolutives EI capturées par le modèle de langage protéique comme un mélange d'informations liées aux caractéristiques et non pertinentes, où les informations non pertinentes sont similaires au « bruit » de la caractéristique cible, de sorte que ce « bruit » doit être éliminé. Des expériences approfondies démontrent que le processus de débruitage basé sur le classement proposé dans cette étude améliore considérablement les performances d'optimisation des protéines tout en maintenant de fortes capacités de généralisation.
Les résultats associés ont été sélectionnés pour la conférence NeurIPS 24 sous le titre « DePLM : Denoising Protein Language Models for Property Optimization ».
Points saillants de la recherche :
* DePLM peut filtrer efficacement les informations non pertinentes et améliorer l'optimisation des protéines en optimisant les informations évolutives contenues dans PLM
* Cette étude conçoit un processus direct basé sur le classement dans un cadre de diffusion de débruitage, qui étend le processus de diffusion à l'espace de classement des possibilités de mutation et transforme l'objectif d'apprentissage de la minimisation de l'erreur numérique à la maximisation de la pertinence du classement, favorisant l'apprentissage indépendant de l'ensemble de données et garantissant une forte capacité de généralisation.
* De nombreux résultats expérimentaux montrent que DePLM non seulement surpasse les modèles de pointe actuels dans la prédiction des effets de mutation, mais présente également de fortes capacités de généralisation pour de nouvelles protéines

Adresse du document :
https://neurips.cc/virtual/2024/poster/95517
Suivez le compte officiel et répondez « Denoised Protein Language Model » pour obtenir le PDF complet
Téléchargement de l'ensemble de données sur les mutations protéiques de ProteinGym :
https://hyper.ai/datasets/32818
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Ensemble de données : une vaste collection d'expériences de criblage de mutations profondes
ProteinGym est une vaste collection d'expériences de criblage mutationnel profond (DMS) contenant 217 ensembles de données.En raison de la limite de longueur du PLM, les chercheurs ont exclu les ensembles de données contenant des protéines de type sauvage d'une longueur supérieure à 1 024 et ont finalement conservé 201 ensembles de données DMS. ProteinGym classe le DMS en cinq catégories approximatives : 66 pour la stabilité, 69 pour la forme physique, 16 pour l'expression, 12 pour la liaison et 38 pour l'activité.
* Expérience de comparaison des performances :Les chercheurs ont utilisé une approche de validation croisée randomisée, dans laquelle chaque mutation de l’ensemble de données a été attribuée de manière aléatoire à l’un des cinq plis, et les performances du modèle ont ensuite été évaluées en faisant la moyenne des résultats de ces cinq plis.
* Expérience de capacité de généralisation :Étant donné un ensemble de données de test, les chercheurs sélectionnent au hasard jusqu'à 40 ensembles de données cohérents avec leur objectif d'optimisation (comme la stabilité thermique) comme données d'entraînement, en s'assurant que la similarité de séquence entre la protéine d'entraînement et la protéine de test est inférieure à 50% pour éviter les fuites de données.
Architecture du modèle : Extension du modèle de diffusion basé sur le processus direct dans l'espace de tri
Comme mentionné ci-dessus, le cœur de DePLM est de considérer les informations évolutives EI capturées par le modèle de langage protéique PLM comme un mélange d'informations liées aux caractéristiques et non pertinentes, où les informations non pertinentes sont similaires au « bruit » de la caractéristique cible et éliminent ce « bruit ». Pour atteindre cet objectif, les chercheurs se sont inspirés du modèle de diffusion de débruitage, qui affine l’entrée bruyante pour produire la sortie souhaitée.
Plus précisément, les chercheurs ont conçu un processus direct basé sur le tri des informations pour étendre le modèle de diffusion afin de débruiter les informations évolutives, comme le montre la figure ci-dessous.Sur le côté gauche de la figure ci-dessous, DePLM utilise la vraisemblance d'évolution dérivée de PLM comme entrée et génère une vraisemblance débruitée pour un attribut spécifique afin de prédire l'impact des mutations ; au milieu et à droite de la figure ci-dessous, le module de débruitage utilise l'encodeur de caractéristiques pour générer des représentations de la protéine, en tenant compte des structures primaires et tertiaires, qui sont ensuite utilisées pour filtrer le bruit dans la vraisemblance via le module de débruitage.

Présentation de l'architecture DePLM
Les modèles de diffusion de débruitage se composent de deux processus principaux :Le processus de diffusion directe et le processus de débruitage inverse doivent être appris. Au cours du processus de diffusion vers l’avant, une petite quantité de bruit est progressivement ajoutée à la valeur réelle ; ensuite, le processus de débruitage inverse apprend à récupérer la vraie valeur en supprimant progressivement le bruit accumulé.
Cependant, l’application de ces modèles à la réduction du bruit des probabilités de mutation dans l’optimisation des protéines pose deux défis majeurs. Premièrement, la relation entre les valeurs réelles des caractéristiques et les mesures expérimentales présente souvent une non-linéarité, qui découle de la diversité des méthodes expérimentales. Par conséquent, s'appuyer uniquement sur la minimisation de la différence entre les valeurs prédites et observées pour la réduction du bruit peut entraîner un surajustement du modèle à un ensemble de données spécifique, réduisant ainsi la capacité de généralisation du modèle. Deuxièmement, contrairement aux modèles de diffusion de débruitage traditionnels, les chercheurs ont besoin que le bruit accumulé converge.
Pour relever ces défis, les chercheurs ont proposé un processus de diffusion de débruitage basé sur le rang.L’accent est mis sur la maximisation de la pertinence du classement, comme le montre la figure ci-dessous. Sur le côté gauche de la figure ci-dessous, la formation de DePLM implique deux étapes principales : un processus de corruption directe et un processus de débruitage inverse appris.
Dans l’étape d’ajout de bruit, les chercheurs ont utilisé un algorithme de tri pour générer des trajectoires passant de classements basés sur la probabilité spécifique à la propriété à des classements basés sur la probabilité évolutive, et DePLM a été formé pour simuler ce processus inverse. Sur le côté droit de la figure ci-dessous, les chercheurs montrent le changement du coefficient de Spearman lors du passage de la vraisemblance évolutive à la vraisemblance spécifique à la propriété.

Enfin, afin de parvenir à un apprentissage indépendant des ensembles de données et à de solides capacités de généralisation de modèles,Les chercheurs mènent un processus de diffusion dans l’espace d’ordination des valeurs de caractéristiques et remplacent l’objectif traditionnel de minimisation de l’erreur numérique par la maximisation de la pertinence de l’ordination.
Résultats de recherche : DePLM présente des performances supérieures et une forte capacité de généralisation
Évaluation des performances : vérifier les avantages de la combinaison des informations évolutives avec les données expérimentales
Tout d’abord, pour évaluer les performances de DePLM dans les tâches d’ingénierie des protéines, les chercheurs l’ont comparé à neuf lignes de base, dont quatre encodeurs de séquences protéiques formés à partir de zéro (CNN, ResNet, LSTM et Transformer) et cinq modèles auto-supervisés (OHE, une version affinée d’ESM-1v, ESM-MSA, Tranception et ProteinNPT).
Les résultats sont présentés dans le tableau ci-dessous, où le meilleur résultat et le deuxième meilleur résultat sont respectivement marqués en gras et soulignés. Dans l'ensemble,DePLM surpasse les modèles de base, confirmant l’avantage de combiner les informations évolutives avec les données expérimentales dans les tâches d’ingénierie des protéines.

Il convient de noter que l'ESM-MSA et la Tranception présentent des informations évolutives plus fortes que l'ESM-1v en raison de l'introduction de l'alignement de séquences multiples (MSA). En comparant leurs résultats, les chercheurs ont démontré que des informations évolutives de haute qualité amélioraient considérablement les résultats après un réglage précis. Cependant, même avec ces améliorations, leurs performances ne parviennent toujours pas à atteindre le niveau de DePLM. Les chercheurs ont également noté queDePLM surpasse ProteinNPT, soulignant l'efficacité de la procédure de formation de débruitage proposée.
Évaluation de la capacité de généralisation : éliminer l'influence des facteurs non pertinents et améliorer les performances
Ensuite, pour évaluer davantage la capacité de généralisation de DePLM, les chercheurs l'ont comparé à quatre lignes de base auto-supervisées (ESM-1v, ESM-2 et TranceptEVE), deux lignes de base basées sur la structure (ESM-IF et ProteinMPNN) et trois lignes de base supervisées (CNN, ESM-1v et versions affinées d'ESM-2).
Les résultats sont présentés dans le tableau suivant. Le meilleur résultat et le deuxième meilleur résultat sont respectivement marqués en gras et soulignés. On peut observer queDePLM surpasse systématiquement tous les modèles de base, démontrant ainsi l’inadéquation des modèles qui s’appuient uniquement sur des informations évolutives non filtrées, qui diluent souvent la propriété cible en optimisant plusieurs objectifs simultanément. En éliminant l’impact des facteurs non pertinents, DePLM améliore considérablement les performances.

De plus, les modèles de base ESM1v (FT) et ESM2 (FT), qui sont entraînés pour minimiser la différence entre les scores prédits et expérimentaux, ont des performances bien inférieures à celles de DePLM. Ce résultat montre queL’optimisation du modèle dans l’espace d’ordination réduit le biais d’un ensemble de données spécifique, conduisant à une meilleure généralisation.De plus, les chercheurs ont observé que les informations structurelles des protéines contribuent à la stabilité et à la liaison, tandis que les informations évolutives améliorent les propriétés d’adaptabilité et d’activité.
En résumé, un grand nombre de résultats expérimentaux montrent queDePLM surpasse non seulement les modèles de pointe actuels dans la prédiction des effets de mutation, mais présente également de fortes capacités de généralisation à de nouvelles protéines.
L'équipe de l'Université du Zhejiang continue d'approfondir les PLM et de promouvoir le développement de la bio-industrie
Le modèle de langage protéique a la capacité de prédire avec précision la structure, la fonction et l'interaction des protéines, et représente l'application de pointe de la technologie de l'IA en biologie. En apprenant les modèles et les structures des séquences de protéines, il peut prédire la fonction et la morphologie des protéines, ce qui est d’une grande importance pour le développement de nouveaux médicaments, le traitement des maladies et la recherche biologique fondamentale.
Face à ce domaine émergent prometteur, l'équipe de l'Université du Zhejiang a continué à l'approfondir ces dernières années et a obtenu un certain nombre de résultats de recherche scientifique innovants.
En mars 2023, le professeur Huajun Chen, le Dr Qiang Zhang et leur équipe de recherche du Centre interdisciplinaire d'IA ont développé un modèle de pré-formation pour le langage des protéines. Les recherches liées à ce modèle ont été publiées lors de la conférence internationale ICLR 2023 sur la représentation de l'apprentissage automatique sous le titre « Pré-entraînement de structure protéique multi-niveaux avec apprentissage rapide ». Il convient de mentionner que la conférence ICLR est l'une des principales conférences dans le domaine de l'apprentissage en profondeur et a été fondée par deux lauréats du prix Turing, Yoshua Bengio et Yann LeCun.
Dans ce travail, l’équipe de recherche a été la première au monde à proposer un mécanisme d’apprentissage rapide orienté protéines et à construire le modèle PromptProtein.Trois tâches de pré-formation ont été conçues pour injecter les informations structurelles primaires, tertiaires et quaternaires des protéines dans le modèle. Afin d'utiliser de manière flexible les informations structurelles, inspirées par la technologie des invites dans le traitement du langage naturel, les chercheurs ont proposé un cadre de pré-formation et de réglage fin guidé par des invites. Les résultats expérimentaux sur les tâches de prédiction de la fonction des protéines et les tâches d’ingénierie des protéines montrent que la méthode proposée a de meilleures performances que les modèles traditionnels.
D’ici 2024, l’équipe aura encore progressé dans ses recherches. Pour relever le défi selon lequel les PLM sont bons pour comprendre les séquences d’acides aminés mais ne peuvent pas comprendre le langage humain,L'équipe de Chen Huajun et Zhang Qiang de l'Université du Zhejiang a proposé le modèle InstructProtein, qui utilise des instructions de connaissances pour aligner le langage des protéines et le langage humain, explore les capacités de génération bidirectionnelle entre le langage des protéines et le langage humain, comble efficacement le fossé entre les deux langages et démontre la capacité d'intégrer des séquences biologiques dans de grands modèles de langage.
La recherche, intitulée « InstructProtein : Aligner le langage humain et protéique via l'instruction des connaissances », a été acceptée par la conférence principale de l'ACL 2024. Des expériences sur un grand nombre de tâches de génération de texte protéique bidirectionnel démontrent qu'InstructProtein surpasse les LLM de pointe existants.

Adresse du document :
https://arxiv.org/abs/2310.03269
En fait, ces articles ne sont qu’un aspect des projets sur lesquels l’équipe travaille. Il est rapporté que les chercheurs du Centre interdisciplinaire d'IA de l'Université du Zhejiang espèrent parvenir à utiliser de grands modèles de protéines ou de langage moléculaire pour piloter des robots expérimentaux scientifiques tels que iBioFoundry et iChemFoundry, en combinant des signaux de capteurs du monde réel, des protéines et le langage humain pour établir un lien entre le langage et la perception.

À l’avenir, l’équipe espère poursuivre l’industrialisation de ses résultats de recherche et réaliser des explorations et un soutien plus précieux pour le développement de nouveaux médicaments et dans les domaines de la vie et de la santé.
Références :