HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 19 jours

L'outil d'analyse du génome : un cadre MapReduce pour l'analyse des données de séquençage de l'ADN de nouvelle génération

Aaron McKenna Matthew Hanna Eric Banks Andrey Sivachenko et al

L'outil d'analyse du génome : un cadre MapReduce pour l'analyse des données de séquençage de l'ADN de nouvelle génération

Résumé

Les projets de séquençage d’ADN de nouvelle génération (NGS), tels que le projet 1000 Genomes, révolutionnent déjà notre compréhension de la variation génétique entre individus. Toutefois, les ensembles de données massifs générés par le NGS — le projet pilote 1000 Genomes comptant déjà près de cinq téraoctets — rendent la conception d’outils d’analyse riches en fonctionnalités, efficaces et robustes particulièrement difficile, même pour des utilisateurs hautement compétents en informatique. En effet, la complexité de l’accès et de la manipulation des données produites par ces machines limite nombre de professionnels dans la portée et la facilité avec laquelle ils peuvent répondre à des questions scientifiques. Dans cet article, nous présentons notre Genome Analysis Toolkit (GATK), un cadre de programmation structuré conçu pour faciliter le développement d’outils d’analyse efficaces et robustes destinés aux séquenceurs d’ADN de nouvelle génération, fondé sur la philosophie de programmation fonctionnelle du modèle MapReduce. Le GATK propose un ensemble restreint mais riche de schémas d’accès aux données, couvrant la majorité des besoins des outils d’analyse. En séparant les calculs spécifiques d’analyse de l’infrastructure commune de gestion des données, nous pouvons optimiser le cadre GATK en termes de correction, de stabilité, d’efficacité CPU et mémoire, tout en permettant la parallélisation distribuée et à mémoire partagée. Nous illustrons les capacités du GATK en décrivant la mise en œuvre et l’application d’outils robustes et tolérants à l’échelle, tels que des calculateurs de couverture et des outils d’appel de polymorphismes à nucleotide unique (SNP). Nous concluons que le cadre de programmation GATK permet aux développeurs et aux analystes de concevoir rapidement et facilement des outils NGS efficaces et robustes, dont plusieurs ont déjà été intégrés à de grands projets de séquençage, comme le projet 1000 Genomes et le Cancer Genome Atlas.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L'outil d'analyse du génome : un cadre MapReduce pour l'analyse des données de séquençage de l'ADN de nouvelle génération | Articles de recherche | HyperAI