HyperAIHyperAI

Command Palette

Search for a command to run...

Console

ゲノム解析ツールキット:次世代DNAシーケンシングデータ解析のためのMapReduceフレームワーク

Aaron McKenna Matthew Hanna Eric Banks Andrey Sivachenko et al

Abstract

次世代DNAシーケンシング(NGS)プロジェクト、たとえば「1000ゲノムプロジェクト」は、すでに個体間の遺伝的変異に関する理解を根本から変革しつつある。しかし、NGSによって生成される膨大なデータセット——1000ゲノムプロジェクトのパイロット研究だけで既に約5テラバイトにのぼる——は、計算的に高度な専門家ですら、機能豊富で効率的かつ堅牢な解析ツールの開発を困難にしている。実際、これらの機器が生み出すデータにアクセス・操作する際の複雑さが、多くの研究者が科学的課題に迅速かつ容易に答える能力を制限している。本稿では、MapReduceの関数型プログラミングの哲学を基盤として、次世代DNAシーケンサー向けに効率的かつ堅牢な解析ツールの開発を容易にする構造化プログラミングフレームワーク「Genome Analysis Toolkit(GATK)」について述べる。GATKは、解析ツールの多くに共通するニーズをカバーする、少数ながら豊富なデータアクセスパターンを提供している。特定の解析計算と一般的なデータ管理インフラを分離することで、GATKフレームワークの正しさ、安定性、CPUおよびメモリ効率を最適化するとともに、分散処理および共有メモリ並列処理の実現を可能としている。本稿では、カバレッジ計算機や単一塩基多型(SNP)検出ツールといった、堅牢性とスケーラビリティを兼ね備えたツールの実装と応用例を通じて、GATKの機能を紹介する。結論として、GATKプログラミングフレームワークは、開発者および解析者に、迅速かつ容易に効率的かつ堅牢なNGSツールを構築する能力を提供しており、その多くはすでに「1000ゲノムプロジェクト」や「がんゲノムアトラス(The Cancer Genome Atlas)」といった大規模なシーケンシングプロジェクトに組み込まれている。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ゲノム解析ツールキット:次世代DNAシーケンシングデータ解析のためのMapReduceフレームワーク | Papers | HyperAI超神経