HyperAI
Back to Headlines

MiniQuant: Neuer Algorithmus löst RNA-Sequenzierungsaufgaben

vor 9 Tagen

Nach fast 20 Jahren technologischer Fortschritte im Bereich der RNA-Sequenzierung haben Wissenschaftler an der University of Michigan eine wichtige Innovation vorgestellt. Das Forschungsteam um Professor Kin Fai Au veröffentlichte kürzlich ein Paper im Journal "Nature Biotechnology", in dem es einen neuen Algorithmus namens miniQuant präsentiert. Dieser Algorithmus löst ein Problem, das die Wissenschaft seit über einem Jahrzehnt beschäftigt: die genaue Quantifizierung von Genisomeren. Traditionell wurde angenommen, dass ein Gen einem Protein entspricht. Tatsächlich kann jedoch ein Gen durch alternative Splicing mehrere mRNA-Versionen, also Geneisomere, erzeugen. Diese Vielfalt steigert die Komplexität des Lebens, macht aber auch die quantitative Analyse ihrer Ausdrucksprofile zu einer großen Herausforderung. Die gängigen Sequenzierungsverfahren teilen sich in zweite und dritte Generation. Die zweite Generation, wie etwa die Illumina-Plattform, erzeugt kurze Lesesequenzen von etwa 150 Basenpaaren, hat aber eine hohe Durchsatzrate und ist kostengünstig. Dagegen liefern die Methoden der dritten Generation, wie PacBio und Oxford Nanopore Technologies, längere Lesesequenzen von bis zu mehreren tausend Basenpaaren, die komplette RNA-Moleküle abdecken können, sind aber weniger wirtschaftlich und haben eine niedrigere Durchsatzrate. Dieses Spannungsfeld zwischen kurzen und langen Lesesequenzen ergibt sich daraus, dass viele kurze Lesesequenzen nicht klar einem bestimmten Genisomer zugeordnet werden können, da sie Sequenzabschnitte teilen. Langere Lesesequenzen können zwar die gesamte Transkriptstruktur erfassen, aber eine geringere Sequenzierungstiefe führt bei niedrig ausgeprägten Genen zu Messungenauigkeiten. Um dieses Problem wissenschaftlich zu lösen, schlug das Team den Begriff des K-Werts (K-value) vor, einen gen-spezifischen Indikator, der auf einer verallgemeinerten Bedingszahl (generalized condition number) basiert. Der K-Wert misst die Unsicherheit in der Quantifizierung von Genisomeren und wird definiert als das Verhältnis der größten zur kleinsten positiven Singulärwerte der Lesesequenz-Isoform-Zuordnungsprobalititätsmatrix A. Bei geringen Beobachtungsfehlern korreliert der relative Quantifizierungsfehler positiv mit dem K-Wert. Genisomere mit hohem K-Wert sind daher anfälliger für Fehler. Das Team führte eine umfangreiche Analyse an mehr als 17.000 öffentlichen Datensätzen aus den GTEx-, TCGA- und ENCODE-Allianzen durch. Die Ergebnisse zeigten, dass der durchschnittliche absolute relative Unterschied (MARD) mit steigendem K-Wert in diesen Datensätzen zunahm. Diese Korrelation war in verschiedenen biologischen Kontexten, bei unterschiedlichen Proben und sequenziertechnischen Plattformen sowie verschiedenen Datenqualitäten konsistent, was die Robustheit des K-Werts als interner Quantifizierungsfehlerindikator bestätigte. Basierend auf dem K-Wert entwickelten die Forscher miniQuant, eine Software, die die Vorteile von kurzen und langen Lesesequenzen intelligent kombiniert. miniQuant bietet zwei Modi: miniQuant-L verwendet ausschließlich lange Lesesequenzen zur Quantifizierung, während miniQuant-H, der Kerninnovation, einen hybriden Ansatz verfolgt und kurze und lange Lesesequenzen integriert. Durch maschinelles Lernen bestimmt miniQuant-H für jede Gruppe von Genen (Gene community) die optimale Gewichtung von kurzen und langen Lesesequenzen, wobei es auf die spezifischen Fehlerquellen reagiert. So werden für komplexe Gene mit hohem K-Wert eher lange Lesesequenzen bevorzugt, um die Deconvolutionsfehler zu reduzieren, während für niedrig exprimierte Gene der Anteil von kurzen Lesesequenzen erhöht wird, um Probenfehler zu minimieren. In verschiedenen Benchmarks zeigte miniQuant-H bedeutende Vorteile. In Tests mit simulierten Daten erreichte der Algorithmus bei verschiedenen Sequenzierungstiefen eine durchschnittliche mittlere MARD von 0,1249, was deutlich besser ist als bestehende Tools für kurze (0,1505-0,3555) und lange Lesesequenzen (0,2515-0,9394). Bei realen Daten, insbesondere mit synthetischen Transkripts aus dem LRGASP-Konsortium, zeigte miniQuant-H eine hohe Präzision sowohl bei einfachen (ERCC-Transkripte) als auch bei komplexen Strukturen (SIRV-Transkripte). Die Anwendung von miniQuant auf die Studie der menschlichen embryonalen Stammzellen (ESC) und ihrer Differentiation in pharyngale Endodermen (PE) und präprimäre Keimzellenähnliche Zellen (PGC) brachte wichtige biologische Erkenntnisse zutage. Die Forscher identifizierten 151 Gene (ESC zu PE) und 161 Gene (ESC zu PGC) mit signifikanten Isomerumschlagsereignissen. Ein Beispiel ist das MAT2B-Gen, dessen Gesamtausdruck stabil blieb, während seine Isomerverwendungsignale stark variierten. Diese Veränderungen könnten die Apoptosekontrolle beeinflussen. miniQuant-H bietet auch Vorteile bei hochexprimierten Genen, deren Ausdrucksniveaus in den oberen Percentilen liegen. Bei typischer Sequenzierungstiefe (z.B. 6 Millionen cDNA-ONT-Lesesequenzen) würden die Ergebnisse langer Lesesequenzen aufgrund von Probenfehlern unzuverlässig werden, wenn die Ausdrucksniveaus auf das 75. Percentil heruntergeprobt werden. miniQuant-H integriert kurze Lesesequenzen und liefert stabile Ergebnisse über einen breiteren Ausdrucksbereich. Die Studie setzt neue Maßstäbe in der RNA-Sequenzierungstechnologie. Sie bietet sowohl eine mathematische Grundlage für die Bewertung der Zuverlässigkeit der Genisomerquantifizierung als auch praktische Werkzeuge, die auf spezifische Datenmerkmale und Genstrukturen angepasst sind. Professor Au fasst zusammen: "Dies ist das erste Mal, dass wir einen wissenschaftlichen Standard bieten, der Wissenschaftler beibringt, welche Gene komplex sind, welche einfach, und wann sie verschiedene Sequenzierungstechniken wählen sollten." Die Gutachter lobten die Arbeit, da sie "ein langes offenes Problem in der Branche löst". miniQuant ist bereits auf der GitHub-Plattform (https://github.com/Augroup/miniQuant) als Open-Source-Software verfügbar. Das Tool bietet vorgefertigte Modelle für verschiedene Sequenzierungsplattformen und Tiefenkombinationen, darunter cDNA-PacBio, cDNA-ONT und dRNA-ONT. Mit dem kontinuierlichen Sinken der Kosten und Steigen der Präzision langer Lesesequenzen könnte miniQuant eine wirtschaftlichere und präzisere Lösung für die Transkriptomforschung sein, die tiefere Einsichten in die Funktion von Genisomeren ermöglicht. Die Studie wird in "Nature Biotechnology" veröffentlicht und trägt den Titel "Verbesserung der Genisomerquantifizierung mit miniQuant". Die Hauptautoren sind Li Hao Ran, Wang Ding Jie, Gao Qi, Tan Pu Wen, Wang Yun Hao und Cai Xiao Yu, während Professor Kin Fai Au als Korrespondenzautor fungiert.

Related Links