HyperAI

Cinq Batailles Pour CASP, Une Référence Pour La Prédiction De La Structure Des Protéines, Zheng Wei De L'université De Nankai : Compétitivité Et Difficulté Accrues, Concentration Sur Les Problèmes Biologiques Pratiques

特色图像

« Avant CASP14, de nombreux groupes de recherche ont vu la participation de DeepMind et ont pensé que leurs résultats pourraient être similaires à ceux de la dernière fois (CASP13), donc personne ne l'a pris au sérieux. »À cette époque, le professeur Zheng Wei de l'Université de Nankai étudiait et échangeait des idées dans le laboratoire du professeur Zhang Yang à l'Université du Michigan.Il a participé à des compétitions avec l'équipe à trois reprises et a été témoin de l'émergence de la première génération d'AlphaFold et de l'ascension vers la gloire d'AlphaFold 2.

Comme le dit le proverbe, « le profane voit l’excitation, l’expert voit la porte ». Lorsque les médias ont fait la promotion de la victoire d'AlphaFold, les concurrents en compétition avec lui dans CASP13 n'étaient en réalité pas aussi surpris et enthousiastes que le monde extérieur. Zheng Wei a rappelé qu'à cette époque, AlphaFold ne s'était toujours pas éloigné du cadre de la « prédiction de distance ».Tout le monde s'accorde à dire que « si nous essayons, nous pourrons peut-être surpasser AlphaFold dans quelques mois ».Dans le même temps, on estime également qu’il est difficile pour l’industrie d’émerger avec des innovations méthodologiques à court terme, et elle est même entrée dans une « période de goulot d’étranglement ».

Pour cette raison, les gens n’avaient pas initialement de grandes attentes quant aux performances de DeepMind dans CASP14.

Le dernier jour de novembre 2020, CASP14 a annoncé les résultats. Zheng Wei et son équipe ont remporté la compétition du groupe de serveurs. Lorsque le comité d’organisation a annoncé les résultats, il a également apporté une autre nouvelle qui a suscité la réflexion :« La performance d’un groupe a été exceptionnelle, très différente des autres et surpassant de loin celle des autres équipes participantes. »Il s'est vite rendu compte que DeepMind avait peut-être « trouvé quelque chose de grand ».

Les résultats sont explicites, AlphaFold 2 est excellent. « Nous avons été vraiment surpris, ils ont fait un excellent travail », analysaient Zheng Wei et d'autres à l'époque. « AlphaFold 2 a bien intégré les résultats de haute qualité et l'expérience des groupes de recherche universitaires antérieurs, et a investi davantage d'énergie dans l'entraînement du modèle pour trouver la solution optimale. Les performances d'AlphaFold 2 sont vraiment révélatrices. »

Le CASP15 qui a suivi est connu comme un événement majeur de « l'ère post-AlphaFold 2 ». Avec la popularité croissante de l'IA dans la prédiction innovante de la structure des protéines, le nombre d'équipes participantes a considérablement augmenté et la compétition a reçu une attention plus large. De la recherche fondamentale à la recherche appliquée, du monde universitaire à l’industrie, tout le monde attend avec impatience de nouvelles surprises.C'est la quatrième fois que Zheng Wei participe au CASP. Il a vécu la transition de l’optimisation des structures à la prédiction des structures et a accumulé une riche expérience.Dans la compétition la plus intense, l'algorithme DI-TASSER et l'algorithme DMFold-Multimer qu'il a développés ont remporté plusieurs championnats dans différentes compétitions.

Dans CASP15, les résultats de prédiction de l'équipe du professeur Zheng Wei
Comparaison des résultats de prédiction d'AlphaFold 2 avec les structures expérimentales (structures réelles)

Nous sommes en 2024.CASP16 est arrivé comme prévu et lui, qui était retourné à l'Université de Nankai, a conduit l'équipe à participer à nouveau.Les pistes et les événements auxquels il a participé sont devenus plus étendus, et comme AlphaFold 3 était open source, il a quand même choisi de « s'en tenir aux racines » et a quand même pris la tête dans plusieurs pistes.

Après l'annonce des résultats, HyperAI a eu l'honneur de mener une interview approfondie avec le professeur Zheng Wei. Grâce à ce concours international, qui est un événement phare, il a analysé pour nous les tendances actuelles de développement de l’industrie et nous a aidé à résumer le chemin de croissance des chercheurs en IA pour la science en se basant sur son expérience personnelle.

aussi,Le professeur Zheng Wei donnera également une conférence à 19h00 le 15 janvier.Sous forme de diffusion en direct en ligne, ils partageront avec nous leurs réalisations en profondeur - prédiction de la structure tridimensionnelle des macromolécules biologiques et de leurs interactions basées sur l'apprentissage profond. Veuillez prendre rendez-vous pour regarder !

Démarrer avec CASP, de l'optimisation à la prédiction

Zheng Wei a obtenu ses diplômes de premier cycle, de maîtrise et de doctorat à l'Université de Nankai. Il a d'abord étudié les sciences de l'information à l'École de mathématiques, mais l'école avait déjà ouvert à l'époque un cours de bioinformatique, et plusieurs enseignants travaillaient également sur la structure des protéines. Ainsi, lorsqu’il a décidé de passer de la recherche mathématique fondamentale à l’application, il a choisi cette direction. « J'ai d'abord rencontré le problème, puis l'outil. »Au cours de son master, il a commencé à se concentrer sur la recherche dans le domaine de la structure des protéines. À cette époque, l'application de l'IA dans ce domaine était beaucoup moins étendue qu'aujourd'hui, de sorte que les outils avec lesquels il est entré en contact étaient « relativement divers », notamment des outils statistiques, des algorithmes traditionnels, l'apprentissage automatique, l'apprentissage profond, etc.

Comme tous les diplômés, il a également hésité et s'est débattu à l'approche de la fin de sa maîtrise : devait-il se préparer à un emploi ou poursuivre ses études de doctorat ? « Au cours de mon échange d'études à l'Université Keio au Japon, j'ai ressenti la richesse de l'atmosphère académique et je suis devenu plus déterminé à poursuivre sur la voie de la recherche scientifique. » En y repensant maintenant, les deux échanges d’études au Japon et aux États-Unis ont eu un impact profond sur lui.

En 2015, au cours des deux dernières années de ses études doctorales, il s'est rendu à l'Université du Michigan aux États-Unis pour une formation conjointe et a rapidement évolué dans le laboratoire du professeur Zhang Yang.

« Merci au professeur Zhang Yang de m'avoir fait découvrir le domaine de la prédiction structurelle. »Comme mentionné ci-dessus, Zheng Wei a participé au CASP trois fois avec le laboratoire du professeur Zhang Yang. Dans cette compétition connue sous le nom de « Concours olympique de prédiction de la structure des protéines », il a accumulé beaucoup d’expérience pratique.

Quelques mois après son arrivée aux États-Unis, il a participé au concours d’optimisation (raffinement) de la structure des protéines CASP12. C'était un débutant et ses résultats n'étaient pas idéaux, mais cela suffisait à lui faire voir clairement ses intérêts -Si vous pouvez améliorer la précision des structures prédites par d’autres personnes, pourquoi ne faites-vous pas vous-même la prédiction de la structure des protéines ?

« Sur la base d'une idée logique aussi simple, j'ai décidé de faire directement une prédiction de structure. » Ainsi, au CASP13, il a suivi le professeur Zhang Yang et s'est concentré sur la prédiction de structure, en commençant par la correspondance et la récupération de modèles. Il a ensuite construit un algorithme CEthreader basé sur la prédiction de la structure du modèle et a collaboré avec d'autres membres de l'équipe pour développer le serveur d'algorithmes CI-TASSER, qui a remporté la première place dans le groupe de serveurs.

Le succès qu'il a remporté lors du concours sectoriel lui a également donné beaucoup de confiance : « Je pense que les prévisions structurelles ne sont pas mauvaises et qu'il y a quelque chose à faire, alors j'ai commencé à approfondir ce domaine. »

En repensant à la transition de l'optimisation structurelle à la prédiction structurelle, Zheng Wei a admis qu'« il y a des défis, mais il y a aussi des points communs ».d'abord,Les méthodologies des deux directions sont deux ensembles de systèmes, et il est impossible d’apprendre l’une de l’autre ou de transférer directement l’expérience. Parmi eux, « l’optimisation » doit faire face à la difficulté de la qualité inégale des modèles initiaux, et il peut y avoir peu de marge d’amélioration, et il peut même y avoir des erreurs. « Prédiction » part de zéro, et la difficulté est imaginable.Deuxièmement,Les deux sont des coordonnées spatiales ancrées au niveau atomique et ont quelque chose en commun en termes de mouvement ou de transformation spatiale, donc « ce n'est pas aussi difficile qu'on l'imagine ».

Après avoir décidé d'approfondir le domaine de la prédiction de structure, Zheng Wei a participé aux CASP14 et CASP15.Au CASP15, nous nous sommes concentrés sur deux domaines : les monomères protéiques et les complexes protéiques, et avons remporté le championnat de prédiction des complexes protéiques avec un score bien supérieur à celui des autres équipes participantes.

Dans CASP15, les résultats de prédiction de l'équipe du professeur Zheng Wei
Comparaison des résultats de prédiction d'AlphaFold 2 et des structures expérimentales

Tendance du secteur : se concentrer sur la résolution de problèmes pratiques

En tant que concours international organisé tous les deux ans, le CASP, qui a eu lieu pour la première fois en 1994, a été le témoin d'innombrables réalisations industrielles importantes au cours des 30 dernières années et reflète bien les tendances de développement dans le domaine de la biologie. Le professeur Zheng Wei du CASP a présenté,Le thème et le format du concours CASP n’ont pas été imaginés par le comité d’organisation, mais sont le résultat de discussions concentrées entre les membres.Nous réunirons également les équipes participantes pour écouter les suggestions et comprendre les enjeux qui préoccupent actuellement l’industrie.

Il ne fait aucun doute que les équipes participant à cette compétition de haut niveau sont toutes des experts et des chercheurs chevronnés qui sont profondément engagés dans le domaine depuis de nombreuses années et qui ont tous des perspectives uniques dans leurs directions de recherche respectives. Comme l'a dit Zheng Wei : « Les directions proposées par chacun lorsque nous nous asseyons ensemble pour discuter peuvent être les sujets d'actualité brûlants en biologie structurale computationnelle, ou les directions qui doivent être résolues de toute urgence et qui sont étroitement liées à la biologie. »

Autrement dit,CASP fournit des conseils et des solutions aux problèmes brûlants de l’industrie.

En repensant au CASP16 qui s'est terminé il n'y a pas longtemps,Il estime que « la compétitivité globale et la difficulté ont augmenté par rapport à avant ».Tout d’abord, le nombre d’équipes participantes a considérablement augmenté par rapport aux années précédentes. Cette année devrait être celle qui comptera le plus grand nombre d'équipes participantes depuis la création du concours, et elles sont principalement issues du milieu universitaire. De nombreux anciens CASPers expérimentés sont présents, ce qui rend la compétition très relevée. Dans le même temps, selon ses observations, ces dernières années, de plus en plus d’équipes nationales ont participé à la compétition CASP et ont obtenu des résultats remarquables. De plus, la proportion d’équipes asiatiques augmente également. Parmi eux, le secteur coréen de la bioinformatique a bénéficié de l'« emploi aérien » de plusieurs leaders de l'industrie, et la taille des équipes participantes a considérablement changé.

Deuxièmement, la difficulté accrue de la compétition, d'une part, symbolise l'amélioration technologique globale dans le domaine de la prédiction de la structure des protéines, et d'autre part, elle confirme également que les besoins de l'industrie sont plus clairs, de sorte que cette compétition « est plus encline aux problèmes biologiques pratiques ».

En parlant de la tendance à la difficulté croissante du CASP et des types de questions plus larges, le professeur Zheng Wei a analysé qu'il y a deux raisons principales.D’une part, la précision de la prédiction des protéines dans le monde universitaire et dans l’industrie s’améliore constamment.Entre 2015 et 2020, la précision de la prédiction de la structure des monomères protéiques a augmenté rapidement et la communauté universitaire a obtenu des résultats fructueux, « poussant le problème de la prédiction de la structure des monomères très près de la limite ». Surtout après le lancement d'AlphaFold 2, qui combine les avantages de l'industrie et dispose de capacités de modélisation plus fortes, il a amené la précision à un nouveau niveau.

On peut dire qu'il est difficile d'améliorer la précision de prédiction des monomères protéiques dans certains domaines, donc tout le monde a commencé à se tourner vers la recherche d'autres nouveaux problèmes, tels que les complexes protéiques, les conformations protéiques, etc., et cette tendance se reflète également directement dans les questions de compétition, mais il y a moins de recherches préliminaires dans de nouveaux domaines, donc cela peut conduire tout le monde à penser que la difficulté des questions a augmenté.

D'autre part, lors des dix dernières compétitions, les sujets proposés par le comité d'organisation contenaient déjà des informations et un contexte biologiques, « qui étaient en réalité un peu éloignés des problèmes biologiques réels ». Dans le même temps, les équipes participantes ont généralement obtenu de très bons résultats sur ce type de sujets. Prenons l’exemple de la prédiction de la structure d’un complexe protéique. Il contient deux protéines, A et B. Lors des concours précédents, le contenu et la proportion de A et B ont été rendus publics afin de réduire la difficulté de prédiction de la structure. Cependant, dans les applications pratiques, il est évidemment impossible de connaître clairement ces informations.C'est pourquoi ce concours a modifié le cadre thématique précédent, le rapprochant de la situation réelle, et oblige les équipes participantes à prédire la structure complète à partir de zéro.

Cela a en fait donné une « surprise » aux candidats, dont Zheng Wei. Il a indiqué que le comité d'organisation avait annoncé mercredi que les questions de base 0 seraient publiées à partir de la semaine prochaine, et qu'il ne restait que 5 jours pour préparer un nouveau pipeline pour la compétition. L'équipe a travaillé « jour et nuit, sans dormir » pour développer un petit algorithme et a contacté une « équipe consultative » familière de biologistes pour nous aider dans l'inférence et l'étalonnage en combinaison avec la littérature biologique.

De plus, CASP16 a ajouté la prédiction de conformation multiple de macromolécules (ENSEMBLES) aux pistes originales de prédiction de la structure des monomères protéiques (REGULAR), de prédiction de la structure des complexes protéiques (MULTIMER), d'évaluation de la précision (EMA), de prédiction de la structure des acides nucléiques (ARN) et de prédiction de la structure des complexes ligands (LIGAND). Ces six axes majeurs comportent de nombreux sous-projets, et il existe également des chevauchements entre eux.

Malgré cela, Zheng Wei a quand même obtenu des résultats exceptionnels en dirigeant l’équipe. Lui et son équipe ont non seulement participé à 5 pistes, à l'exception de la liaison de petites molécules,Parallèlement, nous avons construit des algorithmes distincts pour différentes pistes afin de faire face aux défis.Il se classe deuxième dans le groupe de domaines monomères protéiques, premier dans le groupe de serveurs polymères d'acide nucléique (score z> -2,0), premier dans l'estimation de la précision globale de repliement du complexe, premier dans la prédiction des complexes protéine-acide nucléique et premier dans le score TM pour la prédiction multi-conformation.

Il convient de noter que le 8 mai, une semaine après le début du CASP16, le serveur AlphaFold 3 a été lancé et certaines équipes participantes ont commencé à essayer de l'utiliser pour remplacer leurs propres algorithmes. « Nous étions plus confiants à l'époque, donc nous n'avons pas beaucoup utilisé AlphaFold 3 », a-t-il déclaré après avoir discuté avec l'équipe.Ils ont décidé de « s'en tenir aux racines » et sont devenus la seule équipe du classement supérieur de prédiction de la structure des complexes protéiques à ne pas utiliser AlphaFold 3.

Le professeur Zheng Wei et d'autres équipes participantes au CASP16
Photo avec John Moult, président du comité d'organisation du CASP

En parlant de cela maintenant, le professeur Zheng Wei a ri et a dit : « À l'heure actuelle, nous sommes peut-être un peu trop confiants », mais à mon avis, dans l'environnement compétitif sous haute pression de l'époque, face à la situation où les concurrents avaient tous des « buffs empilés », prendre une telle décision et obtenir de tels résultats exigeait du courage et de la force.

Introduction et accumulation d'AI4S

En effet, la recherche par l’équipe de Zheng Wei d’un soutien technique auprès des biologistes dans le cadre du CASP16 est également un modèle de collaboration courant dans le domaine de l’IA pour la science.

L’IA pour la science vise à utiliser les avantages de l’IA pour résoudre des problèmes difficiles dans les domaines de recherche scientifique traditionnels, ou pour améliorer l’efficacité et la précision. Cela nécessite non seulement de comprendre les besoins et les points faibles du domaine de recherche, mais également de maîtriser la technologie de l’IA. De toute évidence, les talents dotés du bagage interdisciplinaire mentionné ci-dessus sont rares, et dans le cadre de cette tendance générale, de nombreux chercheurs scientifiques ont également commencé à s’auto-enseigner l’IA. De même, les chercheurs qui se concentrent sur l’IA ou l’informatique se tournent de plus en plus vers des domaines tels que la biomédecine, la chimie des matériaux et la science de l’information géographique.

Le professeur Zheng Wei, qui a débuté dans le domaine de l'information, a partagé :La bioinformatique se caractérise par sa facilité de mise en route, mais le processus d'accumulation est en réalité assez long. L'explosion qui suit l'accumulation est également relativement rapide, mais elle entrera bientôt dans une période critique, et toute amélioration ultérieure pourrait nécessiter une longue période d'accumulation.

La « courbe d'accumulation » dessinée par le professeur Zheng Wei

Plus précisément, la recherche sur les protéines a en réalité des exigences relativement souples en matière de contexte biologique. « Cela peut prendre environ un mois pour commencer si vous comprenez 20 types d’acides aminés. » Ensuite, il est temps de développer et d’appliquer des algorithmes à des problèmes pratiques. Ce processus nécessite un certain temps pour s’accumuler.Il se souvient : « Tout au long de mes études de master, j'ai accumulé des travaux de base sur les algorithmes. »

La prédiction de la structure des protéines est devenue sa percée pour surmonter la période de goulot d’étranglement. C'est au cours de son échange et de ses études dans le laboratoire du professeur Zhang Yang à l'Université du Michigan qu'il a commencé à approfondir des recherches connexes telles que la prédiction de la structure des protéines assistée par l'IA.« C’est au cours de ma période postdoctorale que j’ai accumulé une certaine expérience dans ce domaine et que j’ai progressivement produit des résultats. »

À mesure que la recherche s'approfondit et que le champ de couverture s'élargit, il est difficile de couvrir tous les aspects du problème d'un point de vue « informatique » à sens unique, et on rencontre parfois même des situations difficiles. Dans le même temps, les algorithmes ou modèles d’IA doivent également être tempérés par des problèmes biologiques réels afin d’être mieux itérés et mis à niveau. Ne travaillez pas de manière isolée. Sur ce point, Zheng Wei coopère et communique également en permanence avec les biologistes et les équipes et institutions concernées.

Il est intéressant de noter qu’il a inculqué à l’équipe de biologie…N’attendez pas trop de l’IA, car notre taux d’erreur peut être assez élevé.C'est avec un tel respect pour la recherche scientifique que, face à des problèmes pratiques qui peuvent être mis en œuvre, il accorde une grande attention à « combiner le sec et l'humide, les deux côtés s'informant mutuellement et se complétant, afin que la mise en œuvre puisse être plus solide. »

Travail d'équipe et développement multidisciplinaire

Dans cette interview, le professeur Zheng Wei a partagé avec nous son expérience et ses observations sur l'industrie du CASP. Après son parcours de CASP12 à CASP16, l'auteur semble avoir vu sa transformation au fil des années, du choix initial ignorant de l'optimisation de la structure, à un tournant résolu vers la prédiction de la structure, puis à la découverte du plaisir qu'elle procure, puis à l'achèvement d'une accumulation et d'une percée après l'autre.

Aujourd’hui, davantage d’enseignants de l’Université de Nankai ont rejoint l’équipe CASP. Le professeur Zheng Wei a déclaré : « Nous avons besoin de davantage de pistes ou de davantage de directives pour que tout le monde puisse travailler ensemble et coopérer en fonction des intérêts de l'équipe. » Pour cette raison, dans CASP16, l'équipe ne s'est pas concentrée sur les pistes traditionnelles avantageuses, mais s'est concentrée sur l'ensemble du domaine du développement décentralisé. « Il y a des gains et des pertes. Globalement, nos résultats ne sont peut-être pas aussi bons que ceux de CASP15, mais l'équipe a acquis de l'expérience. » C'est également la seule voie dans la « courbe d'accumulation ». Attendons-nous à une plus grande explosion de l’équipe de l’Université Nankai dans le CASP et dans l’ensemble du domaine de la bioinformatique !

Recrutement de nouveaux membres

L'équipe de bioinformatique de l'École de statistique et de science des données de l'Université de Nankai, où se trouve le professeur Zheng Wei, recrute de nouveaux membres !

Si vous êtes intéressé par la biologie structurale computationnelle, la bioinformatique ou la science des données, que vous soyez titulaire d'une maîtrise, d'un doctorat ou d'un postdoctorat, vous êtes le bienvenu pour rejoindre l'équipe du professeur Zheng Wei.

Les étudiants intéressés peuvent contacter le professeur Zheng Wei via les méthodes suivantes :

* Courriel : jlspzw@nankai.edu.cn

* WeChat : 18622152765

Au plaisir de vous compter parmi nous pour explorer ensemble les mystères de la science !