OpenFold3 dévoilé : un modèle open source révolutionnaire pour prédire la structure de protéines, ADN et médicaments
Le consortium OpenFold a annoncé la sortie d’un aperçu d’OpenFold3, un modèle d’intelligence artificielle open source conçu pour prédire avec précision la structure 3D des protéines, acides nucléiques et molécules médicamenteuses à partir de leur séquence d’acides aminés. Développé par une équipe internationale regroupant des chercheurs de l’AlQuraishi Lab à Columbia University, du programme Bioresilience au Lawrence Livermore National Laboratory et du Steinegger Lab à l’université nationale de Séoul, ce modèle s’appuie sur plus de 300 000 structures expérimentales publiques et une base de données synthétique de 13 millions de structures créée par le consortium. OpenFold3 marque une avancée majeure en permettant non seulement la prédiction de structures protéiques isolées, mais aussi celle des complexes protéine-ligand (y compris les petites molécules) et protéine-acide nucléique — des interactions clés pour la plupart des médicaments actuellement sur le marché. Contrairement à AlphaFold3, dont l’accès est limité aux milieux académiques et non autorisé pour les applications industrielles, OpenFold3 est publié sous licence Apache 2.0, garantissant une liberté totale d’utilisation, de modification, de formation avec de nouveaux jeux de données et de déploiement dans des pipelines commerciaux. Cette ouverture est cruciale pour démocratiser l’accès aux modèles fondamentaux en biologie computationnelle, selon Woody Sherman, chef de l’innovation chez Psivant Therapeutics et président du comité exécutif du consortium. L’objectif est de créer une infrastructure commune, comparable au rôle du système Linux dans le domaine informatique, pour accélérer l’innovation dans les secteurs pharmaceutique, biotechnologique et des matériaux. Des entreprises comme Novo Nordisk, Bayer Crop Science, Outpace Bio et Cyrus Biotechnology s’engagent déjà à intégrer OpenFold3 dans leurs pipelines de recherche. À Novo Nordisk, il servira à guider le choix de cibles thérapeutiques et à optimiser la conception moléculaire. Bayer l’utilisera pour étudier des protéines végétales, de mauvaises herbes et d’organismes nuisibles, accélérant ainsi le développement de molécules de protection des cultures. Outpace Bio exploitera le modèle pour concevoir des thérapies cellulaires à circuits moléculaires complexes, tandis que Cyrus Biotechnology l’appliquera à la conception d’enzymes thérapeutiques pour les maladies auto-immunes. OpenFold3 est construit sur PyTorch et déployable via NVIDIA NIM, offrant une performance élevée avec une utilisation optimisée des ressources informatiques. Son architecture modulaire permet aux utilisateurs de l’adapter à leurs propres formats de données sans surcharger les équipes informatiques. Cette flexibilité est soulignée par Mohammed AlQuraishi, qui met en avant la capacité du modèle à s’intégrer directement dans divers workflows. Des initiatives complémentaires, comme OpenBind (initiative britannique) et le réseau AISB, prévoient de fine-tuner OpenFold3 avec des données propriétaires, renforçant ainsi un écosystème collaboratif autour du modèle. Le soutien de partenaires comme AWS, SandboxAQ et Tamarind Bio, ainsi que des contributions techniques et financières de membres du consortium, a été essentiel à son développement. OpenFold3 est désormais accessible via GitHub, Hugging Face, et des versions déployables localement ou via des plateformes partenaires. Ce projet, hébergé par la Open Molecular Software Foundation (OMSF), illustre une nouvelle ère de collaboration ouverte dans la biologie computationnelle, où l’innovation est collective, accessible et accélérée.
