Das Genome Analysis Toolkit: Ein MapReduce-Framework zur Analyse von Next-Generation-DNA-Sequenzierungsdaten
Das Genome Analysis Toolkit: Ein MapReduce-Framework zur Analyse von Next-Generation-DNA-Sequenzierungsdaten
Aaron McKenna Matthew Hanna Eric Banks Andrey Sivachenko et al
Abstract
Projekte zur Next-Generation-DNA-Sequenzierung (NGS), wie das 1000 Genomes Project, revolutionieren bereits unser Verständnis genetischer Variationen zwischen Individuen. Dennoch erschweren die riesigen Datenmengen, die durch NGS generiert werden – bereits die Pilotstudie des 1000 Genomes-Projekts umfasst nahezu fünf Terabasen – die Entwicklung von funktionsreichen, effizienten und robusten Analysewerkzeugen, selbst für rechnerisch fortgeschrittene Anwender. Tatsächlich sind viele Fachleute durch die Komplexität des Zugriffs auf und der Manipulation der von diesen Geräten erzeugten Daten in ihrer Fähigkeit eingeschränkt, wissenschaftliche Fragen umfassend und effizient zu beantworten. In diesem Beitrag stellen wir unseren Genome Analysis Toolkit (GATK) vor, einen strukturierten Programmier-Framework, der die Entwicklung effizienter und robuster Analysewerkzeuge für Next-Generation-DNA-Sequenzer vereinfacht und dabei die funktionale Programmierphilosophie von MapReduce zugrundelegt. Der GATK bietet eine kleine, aber umfassende Auswahl an Datenzugriffsmustern, die die überwiegende Mehrheit der Anforderungen an Analysewerkzeuge abdecken. Durch die Trennung spezifischer Analyseberechnungen von der allgemeinen Datenverwaltungsinfrastruktur können wir den GATK-Framework für Korrektheit, Stabilität sowie CPU- und Speichereffizienz optimieren und zudem verteilte sowie shared-memory-Parallelisierung ermöglichen. Wir verdeutlichen die Fähigkeiten des GATK anhand der Implementierung und Anwendung robuster, skalierungsfähiger Werkzeuge wie etwa Coverage-Rechner und der Erkennung von Einzelnukleotid-Polymorphismen (SNP). Abschließend zeigen wir, dass der GATK-Programmier-Framework Entwicklern und Analysten erlaubt, effiziente und robuste NGS-Werkzeuge schnell und einfach zu erstellen, wovon bereits zahlreiche Anwendungen in großangelegten Sequenzierungsprojekten wie dem 1000 Genomes Project und dem Cancer Genome Atlas profitieren.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.