HyperAI

Du Département De Philosophie De Harvard Au Maître En Conception De Protéines, David Baker : AlphaFold M'a Fait Prendre Conscience Du Pouvoir De L'apprentissage Profond

特色图像

Si nous parlons de qui est le maître de classe mondiale en matière de conception de protéines, le professeur David Baker de l'Université de Washington mérite sans aucun doute ce titre. En tant qu’expert de premier plan dans ce domaine, Baker a publié plus de 700 articles de recherche sur les protéines, avec un total de plus de 177 000 citations. En octobre de cette année, Baker a reçu le prix Nobel de chimie 2024 pour ses contributions exceptionnelles à la conception des protéines.Son influence dans le monde académique est évidente.

Cependant, l’influence de Baker va bien au-delà. Son nom est également bien connu dans le monde industriel.Selon le site officiel de l'Institute for Protein Design de l'Université de Washington, Baker est directement impliqué en tant que fondateur dans 21 entreprises. En avril de cette année, la société pharmaceutique d'IA Xaira Therapeutics, qu'il a cofondée, a non seulement attiré la lauréate du prix Nobel de chimie 2022, Carolyn Bertozzi, mais a également obtenu un énorme financement d'un milliard de dollars américains, se classant au premier rang de la liste mondiale des financements du deuxième trimestre. Même des géants de l’investissement tels que Sequoia Capital et ARCH Venture Partners l’ont approuvé.

David Baker est un scientifique qui compte de nombreux étudiants dans le milieu universitaire et qui a réalisé des réalisations extraordinaires dans l’industrie. Quel est son processus de croissance et son secret de réussite ?

Célébration du prix Nobel de David Baker
Source de l'image : Institut de conception des protéines

À partir de l'intérêt, nous rassemblons des forces du monde entier pour surmonter les difficultés

David Baker est né le 6 octobre 1962 à Seattle, Washington, États-Unis, dans une famille juive. Ses parents étaient physicien et géophysicien. Malgré cela, Baker ne s’intéressait pas à la science au début. Il a étudié la philosophie et les sciences sociales à l'Université Harvard, mais il pense aujourd'hui que « c'était une perte de temps totale. De nombreuses conversations étaient dénuées de sens ».

Au cours de sa dernière année d'université, Baker a suivi un cours de biologie du développement, où il a été témoin d'une expérience magique : après avoir ajouté des dénaturants protéiques, la RNase a perdu son activité de coupe de l'ARN, mais lorsque le dénaturant dans la solution s'est évaporé, l'activité de la RNase s'est miraculeusement rétablie. Comment les protéines trouvent-elles de manière autonome la conformation et la fonction correctes en un instant ?Cette quête de réponses claires aux questions scientifiques l’excitait plus que l’ambiguïté de la philosophie.Il a donc commencé à lire le manuel classique « Biologie moléculaire de la cellule » et est devenu de plus en plus fasciné par la biologie.

Baker a ensuite rejoint le laboratoire du lauréat du prix Nobel de physiologie ou médecine Randy Schekman et a obtenu son doctorat. en biochimie de l'Université de Californie à Berkeley en 1989.

Après avoir obtenu un doctorat, Baker est entré dans le laboratoire du professeur David Agard à l'Université de Californie à San Francisco et a commencé ses recherches postdoctorales.Là, il a essayé d'utiliser des ordinateurs pour analyser les structures cristallines et a eu l'idée d'utiliser des ordinateurs pour prédire les structures des protéines.« Il y avait une salle dans le laboratoire de biologie structurale où je travaillais en tant que postdoctorant, consacrée à la résolution de structures cristallines. Tout le monde était occupé devant un ordinateur, à associer des chaînes d'acides aminés à des cartes de densité électronique. Je me suis assis et j'ai essayé pendant trois minutes, mais j'ai eu un mal de tête atroce. C'est alors que j'ai réalisé que je n'y arriverais pas et que je voulais utiliser les ordinateurs pour faire quelque chose de plus significatif. »

Avec cette question en tête, en 1993, Baker est retourné dans sa ville natale, l'Université de Washington à Seattle, et a commencé à développer un logiciel capable de prédire la structure des protéines en fonction de la séquence d'acides aminés, qui est devenu plus tard le populaire Rosetta. Baker a également rencontré sa femme, Hannele Ruohola-Baker, professeur de biochimie à l'Université de Washington, avec qui il a un fils et une fille.

Baker et Hannele Ruohola-Baker à gauche

En 1998, Rosetta est officiellement sorti.En s'appuyant sur les principes de la physique, Rosetta peut effectuer des calculs de minimisation d'énergie sur la conformation d'une protéine pour prédire la structure tridimensionnelle la plus stable, c'est-à-dire la conformation stable de la protéine proche de son état naturel. Afin de vérifier les performances de Rosetta dans la prédiction de la structure des protéines, l'équipe Baker a participé activement au concours CASP. Dans cette compétition, les participants effectueront des prédictions à l'aveugle sur un lot de structures protéiques dont les structures ont été résolues expérimentalement mais pas encore rendues publiques, afin d'évaluer la précision de différents algorithmes. Depuis lors, Rosetta a progressivement émergé au CASP et est entrée dans l'histoire au CASP6 en 2004. Pour la protéine cible T0281, Rosetta a réalisé pour la première fois une prédiction ab initio de la structure des protéines avec une précision quasi atomique, devenant ainsi un leader dans le domaine de la prédiction de la structure des protéines.

Adresse Rosetta :https://levitate.bio/rosetta

Cependant, des prévisions plus précises impliquent une consommation accrue de ressources informatiques. Lorsque nous avons commencé à prédire la structure des protéines, nous avons constaté que ce travail nécessitait beaucoup de ressources informatiques. Nous avons donc acheté sans cesse de nouveaux ordinateurs, ce qui était non seulement très coûteux, mais nous avons rapidement manqué de place pour tous les installer.C'est pourquoi nous avons lancé le projet Rosetta@home.Invitez des personnes du monde entier à utiliser leur puissance de calcul inutilisée pour effectuer des calculs de structure de protéines. Il s'agit d'un économiseur d'écran qui montre les protéines se repliant sur l'écran pendant que l'ordinateur effectue des calculs. " a déclaré Baker.

Aujourd’hui, Rosetta a été largement adopté dans les environnements universitaires et industriels et est devenu un outil standard pour la biologie structurale et la découverte de médicaments. Afin d'améliorer continuellement le logiciel Rosetta,Baker a également créé une communauté universitaire, Rosetta Commons.Cette communauté rassemble des chercheurs de plus de 60 institutions à travers le monde, couvrant des domaines tels que la chimie, la biologie, la physiologie, la physique, l'ingénierie, les mathématiques et l'informatique. Chaque année, la communauté organise des réunions pour que les membres partagent les résultats et échangent des idées. Aujourd’hui, Rosetta Commons est devenu un projet de coopération internationale à grande échelle.

Adresse Rosetta@home :https://boinc.bakerlab.org

Rosetta@home

Inspiré par le projet Rosetta@home, Baker a profondément réalisé l'importance des « tactiques de vagues humaines ». Si l’on souhaite réaliser rapidement des progrès décisifs dans un domaine inconnu, la coopération gagnant-gagnant est la voie à long terme. En 2008, l'équipe de Baker a officiellement lancé Foldit, un jeu de puzzle en ligne sur le repliement des protéines auquel les professionnels et les non-professionnels peuvent participer. « Notre rêve est que les gens du monde entier travaillent ensemble pour apporter des contributions significatives à la science et à la santé mondiale », a déclaré Baker.

Dans Foldit,Les joueurs utilisent les outils du jeu pour plier la structure protéique sélectionnée aussi parfaitement que possible. Les solutions les mieux notées seront analysées par des chercheurs pour évaluer leur applicabilité dans la vie réelle, puis appliquées à des thérapies ciblées, etc. Il convient de mentionner que Foldit a attiré plus de 400 000 participants et que certains joueurs ont été répertoriés comme contributeurs dans l'article de Baker. Par exemple, dans un article accepté par Nature en 2011, les joueurs de Foldit ont aidé à déchiffrer la structure cristalline de la protéase rétrovirale M-PMV, un virus qui avait intrigué les scientifiques pendant 15 ans. Il n’a fallu que 10 jours aux joueurs pour construire un modèle 3D suffisamment précis de l’enzyme pour effectuer avec succès le remplacement moléculaire et la détermination ultérieure de la structure.

Adresse Foldit :https://fold.it

Pliez-le 

Dans les années qui ont suivi, Rosetta et Foldit sont devenus très populaires dans le domaine de la structure des protéines. Si cette tendance s'était poursuivie, l'autre moitié du prix Nobel de chimie de cette année « pour les contributions à la prédiction de la structure des protéines » n'aurait peut-être pas été attribuée à Demis Hassabis et John Jumper. Le tournant de tout s’est produit à la fin de l’année 2020.

Répondre à AlphaFold2 avec l'open source

Lors du 14e concours CASP qui s'est tenu en novembre 2020, AlphaFold2 « est sorti de nulle part ». En tant que réalisation majeure sélectionnée comme l'une des dix plus grandes avancées de l'année par Science, la précision d'AlphaFold2 dans la prédiction de la structure des protéines a directement écrasé toutes les autres équipes, et Rosetta apportée par l'équipe de Baker était « loin derrière ». L'organisateur a même annoncé directement qu'AlphaFold 2 avait résolu avec succès un problème qui tourmentait les scientifiques depuis 50 ans.

AlphaFold2 est le premier et Rosetta est le deuxième

Contrairement à Rosetta, qui se concentre davantage sur les méthodes basées sur des principes physiques et prédit la structure des protéines en minimisant l'énergie calculée, AlphaFold2 combine l'apprentissage en profondeur avec des connaissances dans des domaines connexes tels que la physique et la biologie pour obtenir une prédiction de bout en bout des informations sur la structure tridimensionnelle des protéines.Cette réalisation a provoqué une énorme sensation dans la communauté scientifique et a été saluée comme une étape importante dans la recherche sur les protéines. Cependant, DeepMind n'a pas divulgué les détails spécifiques d'AlphaFold2 à l'époque.

À ce propos, Baker a déclaré : « Tout le monde était stupéfait. Au début, il y avait beaucoup de couverture médiatique, puis plus rien. C’était étrange que nous ayons fait de grands progrès dans notre domaine, mais que nous ne puissions pas continuer à nous développer sur cette base. »

Comme son professeur Randy Schekman, Baker prône l’open source et le partage de la science. Son professeur a choisi de « déclarer la guerre » aux trois grandes revues.Baker est déterminé à développer un modèle open source capable de concurrencer AlphaFold2.

*Randy Schekman prône un accès libre et ouvert à la littérature scientifique, critique vivement les revues à accès fermé telles que Nature, Science et Cell, et annonce qu'il ne soumettra jamais d'articles à ces revues

Source de l'image : Wikipédia

S'appuyant sur AlphaFold2, Baker et d'autres membres du laboratoire ont travaillé dur pendant plusieurs mois et ont publié le modèle d'apprentissage en profondeur RoseTTAFold. RoseTTAFold utilise une architecture de réseau neuronal unique à trois voies qui peut prendre en compte simultanément les modèles de séquence de la protéine, les interactions des acides aminés et les structures tridimensionnelles possibles, où les informations unidimensionnelles, bidimensionnelles et tridimensionnelles circulent les unes dans les autres, permettant au réseau neuronal de déduire la relation entre la composition chimique de la protéine et sa structure pliée. Grâce à RoseTTAFold, les chercheurs ont calculé des centaines de nouvelles structures protéiques, dont de nombreuses protéines inconnues dans le génome humain, et ils ont également généré des protéines directement liées à la santé humaine, telles que celles associées aux maladies inflammatoires et à la croissance des cellules cancéreuses.

Il convient de mentionner que la consommation d'énergie et le temps de calcul de RoseTTAFold sont inférieurs à ceux d'AlphaFold2. Avec seulement une carte graphique RTX 2080, il peut calculer la structure des protéines dans 400 résidus d'acides aminés en seulement 10 minutes. Les chercheurs ont noté que « sans l’utilisation de ce type de logiciel, il faudrait peut-être des années à une équipe de scientifiques pour déterminer la structure d’une protéine ». Baker savait qu’il était temps de rendre RoseTTAFold public.

Adresse open source de RoseTTAFold :https://github.com/RosettaCommons/RoseTTAFold

En juin 2021, Baker a publié un article pré-imprimé détaillant la voie technique RoseTTAFold. Quelques jours plus tard, le PDG de DeepMind, Demis Hassabis, a annoncé sur Twitter qu'ils publieraient le document et le code source d'AlphaFold2. Le 15 juillet de la même année, des articles sur RoseTTAFold et AlphaFold2 ont été publiés respectivement dans Science et Nature. Le magazine Science a également nommé RoseTTAFold et AlphaFold comme technologies révolutionnaires de 2021.Cette compétition entre le monde universitaire et le monde des affaires s’est finalement terminée parfaitement.

Source de l'image : plateforme sociale Demis Hassabis

Faites quelque chose de stimulant ! Apporter l'apprentissage profond à la conception des protéines

Après l'annonce du prix Nobel de chimie de cette année, le personnel concerné a mené une brève entrevue téléphonique avec Baker. Lorsqu'on lui a demandé comment il percevait la relation concurrentielle entre RoseTTAFold et AlphaFold, Baker a déclaré qu'il n'avait jamais lui-même eu le sentiment d'être un concurrent de DeepMind.

Baker a accepté une interview en ligne après avoir remporté le prix Nobel
Source de l'image : Institut de conception des protéines, Université de Washington

Depuis de nombreuses années, nous développons des méthodes de prédiction et de conception de la structure des protéines basées sur la physique. Mais lorsque John et Demis ont développé AlphaFold2, j'ai pleinement pris conscience de la puissance de l'apprentissage profond. Ils sont de véritables inspirateurs de cette puissance. Bien sûr, avec ce pouvoir,Baker a non seulement utilisé l'apprentissage profond pour la prédiction de la structure des protéines et a lancé RoseTTAFold, mais l'a également utilisé pour la conception des protéines.

Shen Hao, l'élève de Baker, estime que son professeur « a un esprit d'innovation et de grandes avancées » et se concentre sur des choses importantes et stimulantes, comme la conception de protéines complètement nouvelles. Selon Baker, les humains sont confrontés à de nombreux problèmes nouveaux et urgents, tels que de nouvelles maladies causées par une durée de vie plus longue et la pollution de l’environnement. Si nous attendons que l’évolution naturelle résolve les problèmes, cela peut prendre des millions d’années, mais grâce à la conception des protéines, nous pouvons rapidement développer de nouvelles protéines pour résoudre les problèmes actuels.

En fait, l'équipe de Baker pensait depuis longtemps que, puisque les séquences d'acides aminés peuvent être saisies dans Rosetta pour prédire les structures des protéines, il est possible d'utiliser le logiciel à l'envers, de saisir une structure protéique souhaitée, d'obtenir les suggestions de séquences d'acides aminés correspondantes et d'introduire les gènes de séquence conçus dans les bactéries pour permettre aux bactéries de produire la protéine souhaitée ?

Sur cette base,En 2003, l’équipe de Baker a conçu avec succès la première nouvelle protéine au monde, Top7.Cette découverte révolutionnaire a grandement inspiré la recherche dans des domaines connexes.

De même, après avoir réalisé le grand potentiel de l’apprentissage profond pour la conception de protéines, Baker a également commencé à réfléchir : l’apprentissage profond peut-il être utilisé à l’envers pour générer des séquences d’acides aminés pour concevoir de nouvelles protéines fonctionnelles ? Autour de ce thème, il a conduit son équipe à développer une série de résultats.

Baker a publié un article intitulé « Conception de novo de la structure et de la fonction des protéines avec RFdiffusion » dans la revue Nature. Les chercheurs ont affiné le réseau de prédiction de structure RoseTTAFold dans la tâche de débruitage de la structure des protéines.Un modèle génératif de diffusion RF a été développé.Le modèle fonctionne bien dans la conception de liants protéiques, la conception d'échafaudages de sites actifs enzymatiques, etc. Plus important encore, le modèle présente une excellente polyvalence et est open source.

Adresse du projet RFdiffusion :https://github.com/RosettaCommons/RFdiffusion

Parallèlement, afin d’étendre les capacités de la diffusion RF,Baker a également développé une méthode de conception de séquences protéiques basée sur l'apprentissage profond, ProteinMPNN.ProteinMPNN prend la structure des protéines comme entrée et génère de nouvelles séquences d'acides aminés qui peuvent se replier dans le squelette correspondant en 1 seconde. Associé à des outils de génération de structures comme RFdiffusion, il peut être utilisé pour concevoir des protéines avec des séquences, des structures et des fonctions jamais vues auparavant. De plus, l'étude a également montré que sur le squelette protéique naturel, le taux de récupération de séquence de ProteinMPNN était de 52,4%, alors que la conception physique précédente basée sur Rosetta n'était que de 32,9%. La recherche, intitulée « Conception robuste de séquences protéiques basées sur l’apprentissage profond à l’aide de ProteinMPNN », a été acceptée par Science.

Adresse du projet ProteinMPNN:https://github.com/dauparas/ProteinMPNN

De plus, l’équipe de Baker a également optimisé les outils de prédiction de structure Rosetta et Foldit mentionnés précédemment.En introduisant de nouveaux modules et algorithmes dans le logiciel, les deux ne se limitent pas à la prédiction de la structure des protéines, mais s'étendent également à des aspects tels que la conception d'anticorps, la conception d'enzymes et l'amarrage de petites molécules. À ce propos, Baker a déclaré : « Foldit a été initialement créé pour prédire la structure des protéines, mais il s'est désormais tourné vers la conception de protéines. Nous continuerons de mettre à jour les niveaux pour les joueurs, et le logiciel évoluera en fonction de l'évolution de nos centres d'intérêt. »

Photo de groupe de Baker

En combinant des techniques d’IA avec des méthodes physiques, le laboratoire de Baker a créé de nombreuses nouvelles protéines.Les exemples incluent des protéines qui peuvent neutraliser les virus, cibler les cellules cancéreuses ou même agir comme catalyseurs pour des réactions chimiques. De plus, Baker conçoit également des protéines capables de se lier à des matériaux inorganiques et explore la possibilité d’utiliser des protéines pour réguler la croissance de cristaux inorganiques. Cette recherche devrait être appliquée dans des domaines tels que la fabrication de semi-conducteurs.

Promouvoir la mise en œuvre de la technologie en créant une entreprise

Le professeur de Baker, David Agard, a déclaré un jour : « Le travail de David Baker a presque à lui seul favorisé le développement du domaine de la conception des protéines. » En effet, avant la fin de 2024, Baker a publié plus de 110 articles, et le nombre de ces réalisations est assez incroyable. Mais ce qui est encore plus surprenant, c’est que chaque fois que Baker estime que la technologie sur laquelle il fait des recherches est fondamentalement mature, il crée une nouvelle entreprise ou investit dans une entreprise qu’il a fondée dans le passé pour l’incuber, favorisant ainsi l’industrialisation de la technologie. Selon le site officiel de l'Institute for Protein Design de l'Université de Washington,Baker a été directement impliqué en tant que fondateur dans 21 entreprises et il est également consultant pour d'autres.

Source de l'image : Institut de conception des protéines, Université de Washington
David Baker Fondateur/Co-fondateur/Co-fondateur scientifique

Plus précisément, Xaira Therapeutics, une société créée en avril de cette année, a appliqué la RFdiffusion et le ProteinMPNN susmentionnés.L'entreprise s'engage à repenser et à développer des médicaments grâce aux technologies d'IA émergentes. Elle est dirigée par le Dr Marc Tessier-Lavigne, ancien président de l'Université de Stanford, en tant que PDG et Baker en tant que cofondateur. Il est à noter que plusieurs scientifiques du laboratoire de Baker ont également rejoint Xaira à temps plein.

Xaira peut former des modèles de haute qualité en intégrant des quantités massives de données sur les caractéristiques moléculaires et biologiques liées aux maladies humaines. De plus, la société a mis en place une plateforme expérimentale industrielle sèche et humide qui permet de tester le degré d'adhésion des protéines à des cibles cellulaires spécifiques en laboratoire et d'évaluer des propriétés clés telles que la stabilité. Les données résultantes sont rapidement réinjectées dans le modèle protéique, permettant la prochaine itération de la conception moléculaire.

Site officiel de Xaira :https://xaira.com

Archon Biosciences, fondée en 2023, s'engage à concevoir un nouveau type de médicament biologique - la cage à anticorps (AbC) grâce à l'IA générative.AbC combine la conception de l'IA avec le contrôle structurel pour contrôler entièrement l'orientation des anticorps, la valence du domaine de liaison, la taille, la forme et la rigidité. Ce contrôle structurel permet une biodistribution précise et un engagement ciblé sur les cellules et, combiné aux données cliniques internes, peut rapidement vérifier l'efficacité des anticorps. L'entreprise, qui est soutenue par un certain nombre d'entreprises, dont Nvidia, utilise une technologie dérivée des travaux pour lesquels Baker a été récompensé par le prix Nobel de chimie 2024.

Site officiel d'Archon :https://www.archon.bio

Baker démontre des nanocages protéiques

De plus, Monod Bio a lancé en juillet de cette année le premier produit protéique entièrement de novo au monde, LuxSit™ Pro, une luciférase destinée à la recherche et au diagnostic en sciences de la vie.À cet égard, Baker a déclaré : « Il s'agit d'une étape importante en biologie et en informatique. Je pense que dans les prochains mois ou années, nous verrons davantage de protéines conçues de toutes pièces transformées en produits commerciaux matures. » La technologie est issue d’un article publié par Baker dans Nature en 2023.

Il existe également des entreprises telles qu'Arzeda, fondée en 2009, Cyrus Biotech, fondée en 2014, et A-Alpha Bio, fondée en 2018, qui ont activement introduit la dernière technologie d'IA de Baker, dans l'espoir de développer davantage de nouvelles protéines pour la fabrication de nouveaux médicaments, vaccins, traitements contre les maladies et même de nouveaux matériaux.

Site officiel d'Arzeda :https://arzeda.com/
Site officiel de Cyrus Biotech :https://cyrusbio.com/
Site officiel d'A-Alpha Bio :https://www.aalphabio.com/

De l'exploration philosophique initiale au « magicien » actuel de la conception des protéines, chaque pas de Baker est rempli d'un désir d'inconnu et d'une persévérance dans l'innovation. Il a toujours insisté sur le fait que la coopération gagnant-gagnant est la solution à long terme et a inspiré d’innombrables chercheurs et passionnés de sciences du monde entier à se consacrer au développement de ce domaine dans un esprit d’ouverture et de partage. Ses résultats de recherche ont non seulement permis de grandes avancées dans le monde universitaire, mais sont également passés du laboratoire au monde industriel, donnant du pouvoir à de nombreux domaines tels que le traitement des maladies, la production alimentaire et la science des matériaux, apportant davantage de possibilités à la vie humaine.

Références :
1.https://news.bioon.com/article/9068e156469f.html
2.https://news.qq.com/rain/a/20241010A02IB300
3.https://zh.wikipedia.org/zh-cn/Rosetta@home
4.https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/
5.https://news.qq.com/rain/a/20241010A04VNA00
6.https://m.thepaper.cn/newsDetail_forward_28994096
7.https://www.nobelprize.org/prizes/chemistry/2024/baker/interview/
8.https://finance.sina.com.cn/tech/roll/2024-10-10/doc-incsarnm2004532.shtml
9.https://news.qq.com/rain/a/20241011A02XB000