DeepMind veröffentlicht AlphaGenome: KI für genaue DNS-Variantenvorhersage
Google DeepMind hat neulich AlphaGenome vorgestellt, ein tiefes Lernmodell, das die regulatorischen Konsequenzen von DNA-Sequenzvariationen über einen breiten Spektrum biologischer Modalitäten vorhersagt. AlphaGenome zeichnet sich dadurch aus, dass es lange DNA-Sequenzen bis zu einer Megabase akzeptiert und hochaufgelöste Vorhersagen liefert, wie z.B. Basis-Level-Splicing-Ereignisse, Chromatinzugänglichkeit, Genexpression und Bindung von Transkriptionsfaktoren. Das Modell wurde entwickelt, um die Grenzen früherer Modelle zu überwinden, die bei der Verarbeitung langer Sequenzen und der Ausgabe präziser Vorhersagen häufig scheiterten. AlphaGenome vereint prognostische Aufgaben in elf Output-Modalitäten und verarbeitet über 5.000 menschliche genomische Tracks sowie mehr als 1.000 Maus-Tracks. Diese Vielseitigkeit macht AlphaGenome zu einem der umfassendsten sequenz-basierten Funktionenmodelle in der Genomik. Technisch gesehen nutzt AlphaGenome eine U-Net-artige Architektur mit einem Transformer-Kern. Es verarbeitet DNA-Sequenzen in 131-kb parallelen Segmenten auf TPUv3-Geräten, was kontextsensible, basispaargenaue Vorhersagen ermöglicht. Die Architektur verwendet zweidimensionale Einbettungen für räumliche Interaktionsmodelle (z.B. Kontaktkarten) und eindimensionale Einbettungen für lineare genomische Aufgaben. Die Trainingsmethode umfasst zwei Phasen: In der ersten Phase werden spezifische und allgemeine Modelle verwendet, um Vorhersagen von beobachteten experimentellen Tracks zu treffen. In der zweiten Phase lernt ein Schülermodell von Lehrmodellen, um konsistente und effiziente Vorhersagen zu liefern, was schnelle Inferenz (~1 Sekunde pro Variante) auf GPUs wie der NVIDIA H100 ermöglicht. AlphaGenome wurde an 24 genomischen Track-Vorhersagetauten und 26 Varianteneffekt-Vorhersagetauten rigoros getestet. Es übertreffen oder entsprechen den besten aktuellen Modellen in 22 von 24 und 24 von 26 Evaluationsaufgaben. In Splicing-, Genexpressions- und Chromatinbezogenen Aufgaben übertreffen seine Leistungen spezialisierte Modelle wie SpliceAI, Borzoi und ChromBPNet. Ein besonderes Merkmal von AlphaGenome ist seine Fähigkeit zur Vorhersage des Varianteneffekts (VEP) allein auf Basis der DNA-Sequenz. Es kann Zero-Shot- und überwachte VEP-Aufgaben lösen, ohne auf Populationsgenetik-Daten zurückzugreifen, was es robust für seltene Varianten und distale regulatorische Regionen macht. Mit einer einzelnen Inferenz bewertet AlphaGenome, wie eine Mutation Splicing-Muster, Expressionsniveaus und den Chromatinzustand beeinflussen könnte – alles in einer multimodalen Form. Das Modell konnte z.B. klinisch beobachtete Splicing-Störungen, wie Exonüberspringung oder neue Junction-Formation, reproduzieren, was seine Nutzbarkeit bei der Diagnose seltenster genetischer Erkrankungen unterstreicht. Es modellierte z.B. genau die Auswirkungen einer 4-Basispaar-Deletion im DLG1-Gen, wie sie in GTEx-Proben beobachtet wurde. AlphaGenome hilft auch bei der Interpretation von GWAS-Signalen, indem es die Richtung der Effekte von Varianten auf die Genexpression zuweist. Verglichen mit KoinzidenzmETHODEN wie COLOC bot AlphaGenome komplementäre und breitere Abdeckung – es löste viermal mehr Loci im niedrigsten MAF-Quintil auf. In der Krebsgenomik zeigte es Nutzen bei der Analyse nicht-kodierender Mutationen oberhalb des TAL1-Onkogens (im Zusammenhang mit T-ALL). Die Vorhersagen von AlphaGenome stimmten mit bekannten Epigenomenänderungen und Mechanismen der Expressionsaufregelung überein, was seine Fähigkeit bestätigt, Gain-of-Function-Mutationen in regulatorischen Elementen zu bewerten. Trotz dieser beachtlichen Fortschritte gibt es einige aktuelle Einschränkungen. Die genaue Erfassung des Einflusses sehr entfernter regulatorischer Elemente, die mehr als 100.000 Basispaare entfernt sind, bleibt eine Herausforderung. Ein weiteres Ziel für zukünftige Arbeiten ist die Steigerung der Fähigkeit des Modells, zell- und gewebsspezifische Muster besser zu erfassen. AlphaGenome wurde nicht für persönliche Genomprognosen entwickelt und validiert, sondern eher auf die Charakterisierung einzelner genetischer Varianten fokussiert. Obwohl es molekulare Auswirkungen vorhersagen kann, bietet es nicht das vollständige Bild darüber, wie genetische Variationen zu komplexen Merkmalen oder Krankheiten führen, da diese oft breitere biologische Prozesse wie Entwicklungs- und Umwelteinflüsse betreffen. Um die wissenschaftliche Gemeinschaft bei der Ausnutzung von AlphaGenomes Potential zu unterstützen, wird das Modell in der Vorschau-Phase über die AlphaGenome API für nicht-kommerzielle Forschung freigegeben. Die Veröffentlichung des Modells ist für die Zukunft geplant. Forscher weltweit werden eingeladen, über potenzielle Anwendungsfälle Kontakt aufzunehmen und Fragen oder Feedback durch das Community-Forum zu teilen. Das Team von Google DeepMind hofft, dass AlphaGenome ein wichtiger Beitrag zum besseren Verständnis des Genoms sein wird und die wissenschaftliche Gemeinschaft dabei unterstützt, neue Entdeckungen in der Genomik und dem Gesundheitswesen zu machen. AlphaGenome hat das Potenzial, die Genomforschung erheblich voranzubringen. Dr. Caleb Lareau vom Memorial Sloan Kettering Cancer Center betont, dass dies ein Meilenstein für das Feld ist, da es erstmals ein Modell gibt, das langreichweitige Kontext, basenpaargenaue Präzision und standesübliche Leistung bei einer ganzen Palette genomischer Aufgaben vereint. Professor Marc Mansour von der University College London ergänzt, dass die Bestimmung der Relevanz verschiedener nicht-kodierender Varianten äußerst herausfordernd ist, insbesondere in größerem Umfang. AlphaGenome könne dabei eine entscheidende Rolle spielen, indem es bessere Verbindungen herstellt, um Erkrankungen wie Krebs zu verstehen. Google DeepMind, bekannt für Pioneierleistungen in der KI, wie z.B. AlphaFold, arbeitet eng mit externen Experten aus Akademie, Industrie und Regierungsorganisationen zusammen, um sicherzustellen, dass AlphaGenome so vielen Menschen wie möglich zugutekommt. Die Freigabe des Modells in der Vorschau-Phase und die geplante vollständige Veröffentlichung sind wichtige Schritte, um die Genomforschung zu fördern und neue biologische Erkenntnisse und therapeutische Ansätze zu ermöglichen.