Command Palette
Search for a command to run...
Das Genome Analysis Toolkit: Ein MapReduce-Framework zur Analyse von Next-Generation-DNA-Sequenzierungsdaten
Aaron McKenna Matthew Hanna Eric Banks Andrey Sivachenko et al

Abstract
Projekte zur Next-Generation-DNA-Sequenzierung (NGS), wie das 1000 Genomes Project, revolutionieren bereits unser Verständnis genetischer Variationen zwischen Individuen. Dennoch erschweren die riesigen Datenmengen, die durch NGS generiert werden – bereits die Pilotstudie des 1000 Genomes-Projekts umfasst nahezu fünf Terabasen – die Entwicklung von funktionsreichen, effizienten und robusten Analysewerkzeugen, selbst für rechnerisch fortgeschrittene Anwender. Tatsächlich sind viele Fachleute durch die Komplexität des Zugriffs auf und der Manipulation der von diesen Geräten erzeugten Daten in ihrer Fähigkeit eingeschränkt, wissenschaftliche Fragen umfassend und effizient zu beantworten. In diesem Beitrag stellen wir unseren Genome Analysis Toolkit (GATK) vor, einen strukturierten Programmier-Framework, der die Entwicklung effizienter und robuster Analysewerkzeuge für Next-Generation-DNA-Sequenzer vereinfacht und dabei die funktionale Programmierphilosophie von MapReduce zugrundelegt. Der GATK bietet eine kleine, aber umfassende Auswahl an Datenzugriffsmustern, die die überwiegende Mehrheit der Anforderungen an Analysewerkzeuge abdecken. Durch die Trennung spezifischer Analyseberechnungen von der allgemeinen Datenverwaltungsinfrastruktur können wir den GATK-Framework für Korrektheit, Stabilität sowie CPU- und Speichereffizienz optimieren und zudem verteilte sowie shared-memory-Parallelisierung ermöglichen. Wir verdeutlichen die Fähigkeiten des GATK anhand der Implementierung und Anwendung robuster, skalierungsfähiger Werkzeuge wie etwa Coverage-Rechner und der Erkennung von Einzelnukleotid-Polymorphismen (SNP). Abschließend zeigen wir, dass der GATK-Programmier-Framework Entwicklern und Analysten erlaubt, effiziente und robuste NGS-Werkzeuge schnell und einfach zu erstellen, wovon bereits zahlreiche Anwendungen in großangelegten Sequenzierungsprojekten wie dem 1000 Genomes Project und dem Cancer Genome Atlas profitieren.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.