Gatk_benchmarkゲノム解析サンプルデータセット
GATK (Genome Analysis Toolkit) は、MIT とハーバード大学の合弁会社である Broad Institute によって開発されたオープンソースのバイオインフォマティクス ツールキットです。
このプロジェクトの目標は、主に以下の目的で使用されるハイスループット シーケンス (NGS) データの標準化された分析プロセスを提供することです。
- DNA/RNA シーケンスデータの品質管理 (QC)
- 配列のアライメントと再調整。
- 変異体の呼び出し、SNP、InDel、その他の変異体の識別。
- 集団レベルでの共同遺伝子型判定。
GATK は、ゲノミクス分野で最も一般的に使用されている解析フレームワークの 1 つであり、ヒトの全ゲノム配列解析、がんゲノム研究、精密医療で広く使用されています。
関連する論文結果は「ゲノム解析ツールキット: 次世代 DNA シーケンスデータを解析するための MapReduce フレームワークハーバード大学とMITのブロード研究所がマサチューセッツ総合病院の人類遺伝学センターと共同で2010年に発表した論文です。
サンプルデータセットの紹介
GATKの解析パイプラインは、アライメントされていないBAMファイル(uBAM)を統一された出発点として使用します。一方、シーケンサーは通常、FASTQファイルまたはアライメント済みのBAMファイルを出力します。一貫性と再現性のある解析を確保するには、異なるソースからのデータをuBAM形式に変換する必要があります。
このプロジェクトでは、次の 2 つの典型的な例を示します。
- FASTQ から非整列 BAM への変換パイプライン (FastqToSam)。
- 整列された BAM から非整列 BAM への復元プロセス (RevertSam)。
チュートリアル6484FastqToSam.tar.gz
このデータセットには、シーケンサーから出力される生データ形式であるFASTQ形式のファイルが含まれています。これらのファイルには、各DNAリードの塩基配列とシーケンス品質値が記録されています。PicardのFastqToSamツールを使用して、ペアエンドシーケンスのFASTQファイルを非アラインメントBAMに変換し、生成する方法を示すために使用されます。 .bam 生のシーケンス、品質値、読み取りグループ情報を含みますが、アライメント位置情報は含まないファイル。
- 変換コマンドの例:
bash
java -Xmx8G -jar picard.jar FastqToSam \
FASTQ=6484_snippet_1.fastq \ # 双端测序中的第一个读段文件
FASTQ2=6484_snippet_2.fastq \ # 双端测序中的第二个读段文件
OUTPUT=6484_snippet_fastqtosam.bam \
READ_GROUP_NAME=H0164.2 \ # 必需;读组名称(默认值为 A,此处已修改)
SAMPLE_NAME=NA12878 \ # 必需;样本名称
LIBRARY_NAME=Solexa-272222 \ # 必需;文库名称
PLATFORM_UNIT=H0164ALXX140820.2 \
PLATFORM=illumina \ # 推荐;测序平台类型(如 Illumina)
SEQUENCING_CENTER=BI \
RUN_DATE=2014-08-20T00:00:00-0400 # 测序运行日期与时间
チュートリアル6484RevertSam.tar.gz
このデータセットはBAM形式です。BAM形式は、FASTQファイル内の配列を正規化またはアライメントすることで生成されるバイナリファイルです。配列とそのゲノム上の位置をより効率的に保存します。このサンプルデータセットは、PicardのRevertSamツールを使用して、アライメント済みのBAMファイルをアライメント前の状態に復元し、再アライメントまたは再解析を行う方法を示しています。
- 変換コマンドの例:
bash
java -Xmx8G -jar /path/picard.jar RevertSam \
I=6484_snippet.bam \
O=6484_snippet_revertsam.bam \
SANITIZE=true \
MAX_DISCARD_FRACTION=0.005 \ # 仅用于信息提示,不影响处理过程
ATTRIBUTE_TO_CLEAR=XT \
ATTRIBUTE_TO_CLEAR=XN \
ATTRIBUTE_TO_CLEAR=AS \ # 自 2015 年 9 月的 Picard 版本起,AS 属性默认会被清除
ATTRIBUTE_TO_CLEAR=OC \
ATTRIBUTE_TO_CLEAR=OP \
SORT_ORDER=queryname \ # 默认设置;按查询名排序
RESTORE_ORIGINAL_QUALITIES=true \ # 默认设置;恢复原始质量值
REMOVE_DUPLICATE_INFORMATION=true \ # 默认设置;移除重复信息
REMOVE_ALIGNMENT_INFORMATION=true # 默认设置;移除比对信息 Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.