HyperAI

Partage Académique | N’ayez Pas Peur Du Manque De Données ! Zhou Ziyi, Chercheur Postdoctoral À L'université Jiao Tong De Shanghai, Explique La Méthode D'apprentissage Par Petits Échantillons FSFP Du Modèle De Langage Protéique

特色图像

Les modèles de langage protéique pré-entraînés (PLM) peuvent apprendre les caractéristiques de distribution des séquences d'acides aminés dans des millions de protéines de manière non supervisée, montrant un grand potentiel pour révéler la relation implicite entre les séquences protéiques et leurs fonctions.

Dans ce contexte, le groupe de recherche du professeur Hong Liang de l'École des sciences naturelles/École de physique et d'astronomie/Institut d'études avancées de Zhangjiang/École de pharmacie de l'Université Jiao Tong de Shanghai, en collaboration avec Tan Pan, un jeune chercheur du Laboratoire d'intelligence artificielle de Shanghai,Nous avons développé une méthode d'apprentissage par petits échantillons pour les modèles de langage protéique, qui peut améliorer considérablement les performances de prédiction des effets de mutation des modèles de langage protéique traditionnels en utilisant très peu de données expérimentales humides.Il a montré un grand potentiel dans les applications pratiques.

Dans le troisième épisode de la série en direct « Meet AI4S », HyperAI a eu la chance d'inviter le premier auteur de l'article sur ce résultat de recherche, Zhou Ziyi, chercheur postdoctoral à l'Institut des sciences naturelles de l'Université Jiao Tong de Shanghai et au Centre national de mathématiques appliquées de Shanghai. Le 25 septembre, le Dr Zhou Ziyi partagera davantage avec tout le monde la méthode d'apprentissage par petits échantillons du modèle de langage protéique sous la forme d'une diffusion en direct en ligne et explorera de nouvelles idées pour l'évolution dirigée assistée par l'IA.

Cliquez pour programmer une diffusion en direct :

https://hdxu.cn/6Bjom

Scannez le code QR et notez « AI4S » pour rejoindre le groupe de discussion↓

Détails de l'événement

Partager le sujet

Méthode d'apprentissage en quelques coups pour le modèle de langage des protéines

Introduction

Le modèle de langage des protéines (PLM) a permis des avancées dans la prédiction de la fonction des protéines, mais il nécessite souvent une grande quantité de données expérimentales affinées pour atteindre une grande précision. Cet article présente une méthode d’apprentissage par petits échantillons pour PLM, qui peut améliorer considérablement les performances de prédiction de l’effet de mutation du PLM en utilisant seulement des dizaines d’échantillons d’entraînement.

Revue de presse

HyperAI a déjà interprété et partagé le document de recherche « Améliorer l'efficacité des modèles de langage protéique avec un minimum de données de laboratoire humide grâce à un apprentissage en quelques coups » avec le Dr Ziyi Zhou comme premier auteur.

Cliquez pour voir le rapport détaillé : 20 données expérimentales créent une étape importante dans la protéine IA ! L'Université Jiao Tong de Shanghai et le Shanghai AI Lab ont publié conjointement le FSFP pour optimiser efficacement les modèles de pré-entraînement des protéines

La méthode FSFP comprend 3 étapes :

Créez des tâches auxiliaires pour la méta-formation, formez les PLM sur les tâches auxiliaires et transférez les PLM vers la tâche cible via LTR.

Parmi eux, FSFP utilise la perte ListMLE pour apprendre à classer la forme physique des mutations. À chaque itération de formation, les classements prédits par le PLM des échantillons de formation sont corrigés en fonction de leurs classements réels. L’approche d’apprentissage par classement est appliquée simultanément aux phases d’optimisation interne et d’apprentissage par transfert de la phase de méta-formation.

Acquisition de jeux de données

Cette étude a sélectionné l’ensemble de données sur les mutations protéiques (ProteinGym) comme ensemble de données de référence. L'ensemble de données contient un total d'environ 1,5 million de variantes faux-sens provenant de 87 expériences de séquençage DMS.

Adresse de téléchargement de l'ensemble de données sur les mutations protéiques ProteinGym :
https://go.hyper.ai/6GvFD

Évaluation de la méthode FSFP

* En termes de performances moyennes, les PLM formés par FSFP surpassent systématiquement les autres lignes de base sur toutes les tailles de données de formation.

* En termes d’évaluation des performances d’extrapolation, l’évaluation de corrélation de Spearman des PLM formés par FSFP est supérieure.

* Le FSFP a été appliqué avec succès à la modification technique de l'ADN polymérase Phi29, améliorant considérablement le taux positif.

Avantages pour le public :

1. Comprendre les principes de base du PLM et son application en ingénierie des protéines

2. Comprendre les principes de base du PLM et son application en ingénierie des protéines

3. Explorer de nouvelles idées d’évolution dirigée assistée par l’IA

Le groupe de recherche de Hong Liang à l'Université Jiao Tong de Shanghai

Le groupe de recherche de Hong Liang à l'Université Jiao Tong de Shanghai est affilié à l'Institut des sciences naturelles de l'Université Jiao Tong de Shanghai. L'orientation de recherche du groupe de recherche est principalement la conception de protéines et de médicaments IA, la biophysique moléculaire, notamment :

* Modification dirigée vers les protéines, évolution dirigée par l'ingénierie enzymatique et conception assistée de médicaments basée sur la technologie de l'intelligence artificielle ;

* Diffusion des neutrons, rayonnement synchrotron, grandes installations scientifiques nationales, fluorescence de molécules uniques, simulation de dynamique moléculaire et algorithmes d'intelligence artificielle, etc., pour étudier la dynamique des macromolécules biologiques, la technologie et les principes de cryoconservation des macromolécules biologiques.

L’équipe de recherche a obtenu des résultats fructueux. À ce jour, ils ont publié 77 articles de recherche, dont beaucoup ont été publiés dans des revues Nature.

Découvrez la série AI4S Live

HyperAI (hyper.ai) est le plus grand moteur de recherche de Chine dans le domaine de la science des données. Il se concentre sur les derniers résultats de recherche scientifique de l'IA pour la science et suit en temps réel les articles universitaires dans les meilleures revues telles que Nature et Science. Jusqu’à présent, il a achevé l’interprétation de plus de 100 articles sur l’IA pour la science.

De plus, nous exploitons également le seul projet open source d'IA pour la science en Chine, awesome-ai4s.

Adresse du projet :

https://github.com/hyperai/awesome-ai4s

Afin de promouvoir davantage la popularisation de l'IA4S, de réduire davantage les barrières de diffusion des résultats de la recherche scientifique des institutions universitaires et de les partager avec un plus large éventail de chercheurs de l'industrie, de passionnés de technologie et d'unités industrielles, HyperAI a planifié la colonne vidéo « Meet AI4S », invitant les chercheurs ou les unités connexes qui sont profondément engagés dans le domaine de l'IA pour la science à partager leurs résultats de recherche et leurs méthodes sous forme de vidéos, et à discuter conjointement des opportunités et des défis auxquels est confrontée l'IA pour la science dans le processus de progrès, de promotion et de mise en œuvre de la recherche scientifique, afin de promouvoir la vulgarisation et la diffusion de l'IA pour la science.

Nous invitons les groupes de recherche et les institutions de recherche efficaces à participer à nos événements en direct ! Scannez le code QR pour ajouter « Neural Star » WeChat pour plus de détails↓