Massive Genom-Daten treiben AI-Entwicklung in der Biologie voran
Google DeepMind hat im Juni 2025 mit AlphaGenome ein neues KI-Modell vorgestellt, das die Regulation von Genen vorhersagt – speziell wie genetische Varianten die Aktivität von Genen in verschiedenen Geweben beeinflussen. Im Gegensatz zu AlphaFold, das sich auf die Faltung von Proteinen konzentriert, analysiert AlphaGenome den regulatorischen Teil des Genoms, also jene Bereiche, die steuern, wann und wo Gene aktiviert oder deaktiviert werden. Die Grundlage für das Modell bilden riesige öffentliche Datensätze, insbesondere die ENCODE- und GTEx-Projekte, die in den 2010er Jahren von der Broad Institute und Partnern initiiert wurden. ENCODE kartografierte über eine Million regulatorischer Elemente im menschlichen Genom, während GTEx systematisch die Genexpression in verschiedenen Geweben und Spezies erfasst hat. Beide Projekte haben maßgeblich zur Aufklärung der Funktion nicht-kodierender DNA-Regionen beigetragen und den Weg für spätere Initiativen wie den Human Cell Atlas, die Impact of Genomic Variation on Function Consortium und das Gene Regulation Observatory (GRO) geebnet. Laut Kristin Ardlie, Direktorin von GTEx, und Brad Bernstein, Leiter des GRO und Co-Leiter von ENCODE, war das Ziel der Projekte ursprünglich, die „Sprache des Genoms“ zu entschlüsseln. Früher wurde angenommen, dass der Großteil des Genoms „Abfall-DNA“ sei; ENCODE zeigte jedoch, dass etwa 20 % funktionell sind – ein Paradigmenwechsel. GTEx entstand daraufhin, um zu verstehen, wie genetische Varianten in diesen bisher unbekannten Regionen die Genexpression beeinflussen, besonders im Kontext von Krankheiten. Heute ermöglichen diese Datensätze wie ENCODE und GTEx die Entwicklung fortschrittlicher KI-Modelle, die nicht nur Muster erkennen, sondern auch systematische Regeln der Genregulation entschlüsseln können. AlphaGenome und ähnliche große Sprachmodelle zeigen, dass langfristig angelegte, offene Datenressourcen enorme Wert haben – selbst Jahrzehnte nach ihrer Erstellung. Ardlie betont, dass die Vision, diese Daten als gemeinschaftliche, nutzergerechte Ressourcen zu gestalten, sich bewahrheitet hat. Um weiter Fortschritte zu erzielen, braucht es nun auch Daten zu biologischen Störungen: etwa während der Entwicklung oder bei Krankheitsprozessen. Bernstein fordert, systematisch Daten über genetische Veränderungen in menschlichen Zellen zu sammeln, beispielsweise durch gezielte Mutationen in einzelnen Zelltypen, um die komplexe Regulation des Genoms besser zu verstehen. AI hilft bereits bei der Analyse der dreidimensionalen Genomarchitektur, der Organisation von Promotoren und der Dynamik der Chromatinstruktur. Die Zukunft liegt in der Kombination von hochauflösenden Daten und KI-Modellen, die nicht nur Einzelvarianten, sondern ganze regulatorische Netzwerke erfassen. Die große Frage: Soll man Varianten einzeln untersuchen oder mit KI ganzheitlich die „Regeln“ des Genoms entdecken? Die Antwort könnte in der Kombination beider Ansätze liegen. Mit weiteren, umfassenden und systematisch erfassten Datensätzen könnte KI künftig die Interpretation von genetischen Tests revolutionieren – besonders bei Varianten mit unklarer klinischer Bedeutung. Die Erfolge von AlphaGenome unterstreichen, dass die Investition in grundlegende, unvoreingenommene biologische Datenbanken langfristig unverzichtbar ist. Sie bilden die Grundlage für die nächste Generation der genomischen Forschung – und zeigen, dass die KI-Revolution in der Biologie erst am Anfang steht.
