HyperAIHyperAI

Command Palette

Search for a command to run...

AlphaGenome révèle le pouvoir des données génomiques massives pour décoder la régulation du génome

En juin, Google DeepMind a dévoilé AlphaGenome, son dernier modèle d’apprentissage automatique dédié à la découverte biologique. Contrairement à AlphaFold, qui se concentre sur la structure des protéines, AlphaGenome prédit l’impact des variants génétiques sur les processus régulateurs qui contrôlent l’activation ou la désactivation des gènes. Ce modèle repose sur des données massives issues de deux ressources fondamentales créées dans les années 2010 au Broad Institute : le projet ENCODE, qui a catalogué plus d’un million d’éléments régulateurs dans le génome humain, et le projet GTEx, qui cartographie les profils d’expression génique dans divers tissus humains et primate. Ces bases de données, conçues pour être des ressources ouvertes et accessibles, ont été essentielles non seulement pour comprendre le fonctionnement du génome, mais aussi pour identifier les variants non codants impliqués dans les maladies. Elles ont également servi de fondement à des initiatives majeures comme le consortium NIH Impact of Genomic Variation on Function, l’Human Cell Atlas et le Gene Regulation Observatory (GRO) du Broad. Kristin Ardlie, scientifique à l’Institut Broad et directrice du projet GTEx, souligne que l’objectif initial de GTEx était de comprendre comment les variants génétiques, souvent situés dans les régions non codantes, influencent l’expression des gènes dans différents tissus. Brad Bernstein, membre de l’Institut Broad, chef du programme d’épigénomique et co-directeur d’ENCODE, explique que ce dernier visait à décrypter le « langage » du génome, en révélant que près de 20 % du génome possède un rôle fonctionnel, remettant en cause l’idée que le reste était du « bruit ». L’essor d’AlphaGenome et d’autres modèles de langage à grande échelle illustre pleinement la valeur durable de ces ressources. Ardlie insiste sur le fait que ces projets, conçus comme des outils publics sans restriction d’utilisation, ont permis des avancées inimaginables des années après leur lancement. Elle estime que la prochaine étape réside dans la création de ressources plus fines, notamment des cartographies à l’échelle cellulaire unique, afin de comprendre les dynamiques biologiques à un niveau de résolution inédit. Bernstein ajoute que des modèles comme AlphaGenome pourraient résoudre une question centrale : faut-il analyser les variants un par un, ou adopter une approche holistique, fondée sur les règles systémiques du génome ? Des laboratoires du Broad, comme ceux de Jason Buenrostro et Anders Hansen, utilisent déjà l’intelligence artificielle pour étudier l’organisation 3D du génome et les interactions à longue distance, clés pour la régulation génique. Pour les cinq prochaines années, Ardlie souhaite voir émerger des ressources dédiées aux perturbations biologiques — comme le développement embryonnaire ou les étapes précoces de la maladie — afin de comprendre les processus dynamiques. Bernstein, lui, appelle à des expérimentations systématiques, notamment en mutagenèse complète dans des cellules humaines, pour décrypter les règles régulatoires. Bien que la quantité de données nécessaires soit colossale, ces efforts pourraient permettre à des modèles comme AlphaGenome de révolutionner notre compréhension du génome, en transformant l’interprétation des variants génétiques et en ouvrant la voie à des diagnostics et traitements personnalisés.

Liens associés