Command Palette

Search for a command to run...

19 天前

基因组分析工具:一种用于分析下一代DNA测序数据的MapReduce框架

Aaron McKenna Matthew Hanna Eric Banks Andrey Sivachenko et al

基因组分析工具:一种用于分析下一代DNA测序数据的MapReduce框架

摘要

下一代DNA测序(NGS)项目,如“千人基因组计划”,已开始深刻改变我们对个体间遗传变异的理解。然而,NGS所产生的海量数据——仅“千人基因组计划”先导项目就包含近五拍字节(terabases)的数据——使得即便是计算能力较强的科研人员,也难以编写出功能丰富、高效且稳健的分析工具。事实上,由于这些测序设备所生成数据的访问与处理极为复杂,许多专业研究人员在回答科学问题时,其研究范围和效率都受到严重限制。在此,我们介绍基因组分析工具包(Genome Analysis Toolkit, GATK),这是一个基于MapReduce函数式编程思想设计的结构化编程框架,旨在简化针对下一代DNA测序仪的高效、稳健分析工具的开发。GATK提供了一组精炼但功能丰富的数据访问模式,涵盖了绝大多数分析工具的需求。通过将具体的分析计算与通用的数据管理基础设施相分离,我们能够对GATK框架进行优化,以确保其在正确性、稳定性以及CPU和内存使用效率方面的卓越表现,并支持分布式计算与共享内存并行处理。我们通过描述覆盖度计算器和单核苷酸多态性(SNP)检测等稳健且具备良好可扩展性的工具的实现与应用,展示了GATK的强大能力。最终我们认为,GATK编程框架使开发者和分析人员能够快速、便捷地编写出高效且可靠的NGS分析工具,其中许多工具已成功应用于“千人基因组计划”和“癌症基因组图谱”(The Cancer Genome Atlas)等大规模测序项目中。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供