Command Palette
Search for a command to run...
Gatk_benchmark 게놈 분석 예제 데이터 세트
GATK(Genome Analysis Toolkit)는 MIT와 하버드 대학의 합작 투자 기관인 브로드 연구소에서 개발한 오픈 소스 생물정보학 툴킷입니다. 이 프로젝트의 목표는 주로 다음 용도로 사용되는 고처리량 시퀀싱(NGS) 데이터에 대한 표준화된 분석 프로세스를 제공하는 것입니다.
- DNA/RNA 시퀀싱 데이터의 품질 관리(QC)
- 시퀀스 정렬 및 재교정
- 변종 호출, SNP, InDel 및 기타 변종 식별
- 인구 수준에서의 공동 유전자형 분석. GATK는 유전체학 분야에서 가장 흔히 사용되는 분석 프레임워크 중 하나이며, 인간 전체 유전체 시퀀싱, 암 유전체 연구 및 정밀 의학에 널리 사용됩니다. 관련 논문 결과는 다음과 같습니다.게놈 분석 툴킷: 차세대 DNA 시퀀싱 데이터 분석을 위한 MapReduce 프레임워크"는 2010년 하버드 대학교와 MIT의 브로드 연구소가 매사추세츠 종합병원의 인간유전학 센터와 협력하여 출판한 논문입니다.
샘플 데이터 세트 소개
GATK의 분석 파이프라인은 정렬되지 않은 BAM 파일(uBAM)을 통합된 시작점으로 사용하는 반면, 시퀀서는 일반적으로 FASTQ 파일이나 사전 정렬된 BAM 파일을 출력합니다. 일관되고 재현 가능한 분석을 보장하려면 다양한 소스의 데이터를 uBAM 형식으로 변환해야 합니다. 이 프로젝트는 두 가지 전형적인 예를 제공합니다.
- FASTQ에서 정렬되지 않은 BAM(FastqToSam)으로의 변환 파이프라인
- 정렬된 BAM에서 정렬되지 않은 BAM으로의 복원 프로세스(RevertSam).
tutorial6484FastqToSam.tar.gz
이 데이터세트에는 시퀀서에서 출력되는 원시 데이터 형식인 FASTQ 형식 파일이 포함되어 있습니다. 이 파일들은 각 DNA 리드의 염기 서열과 시퀀싱 품질 값을 기록합니다. 이 파일들은 Picard의 FastqToSam 도구를 사용하여 페어드엔드 시퀀싱의 FASTQ 파일을 정렬되지 않은 BAM으로 변환하고 생성하는 방법을 보여줍니다. .bam 원시 시퀀스, 품질 값, 읽기 그룹 정보를 담고 있지만 정렬 위치 정보는 없는 파일입니다.
- 변환 명령의 예:
bash
java -Xmx8G -jar picard.jar FastqToSam \
FASTQ=6484_snippet_1.fastq \ # 双端测序中的第一个读段文件
FASTQ2=6484_snippet_2.fastq \ # 双端测序中的第二个读段文件
OUTPUT=6484_snippet_fastqtosam.bam \
READ_GROUP_NAME=H0164.2 \ # 必需;读组名称(默认值为 A,此处已修改)
SAMPLE_NAME=NA12878 \ # 必需;样本名称
LIBRARY_NAME=Solexa-272222 \ # 必需;文库名称
PLATFORM_UNIT=H0164ALXX140820.2 \
PLATFORM=illumina \ # 推荐;测序平台类型(如 Illumina)
SEQUENCING_CENTER=BI \
RUN_DATE=2014-08-20T00:00:00-0400 # 测序运行日期与时间
tutorial6484RevertSam.tar.gz
이 데이터 세트는 FASTQ 파일의 시퀀스를 정규화하거나 정렬하여 생성된 이진 파일인 BAM 형식입니다. 이 데이터 세트는 시퀀스와 게놈 내 위치를 더욱 효율적으로 저장합니다. 이 예제 데이터 세트는 Picard의 RevertSam 도구를 사용하여 정렬된 BAM 파일을 재정렬 또는 재분석을 위해 정렬되지 않은 상태로 복원하는 방법을 보여줍니다.
- 변환 명령의 예:
bash
java -Xmx8G -jar /path/picard.jar RevertSam \
I=6484_snippet.bam \
O=6484_snippet_revertsam.bam \
SANITIZE=true \
MAX_DISCARD_FRACTION=0.005 \ # 仅用于信息提示,不影响处理过程
ATTRIBUTE_TO_CLEAR=XT \
ATTRIBUTE_TO_CLEAR=XN \
ATTRIBUTE_TO_CLEAR=AS \ # 自 2015 年 9 月的 Picard 版本起,AS 属性默认会被清除
ATTRIBUTE_TO_CLEAR=OC \
ATTRIBUTE_TO_CLEAR=OP \
SORT_ORDER=queryname \ # 默认设置;按查询名排序
RESTORE_ORIGINAL_QUALITIES=true \ # 默认设置;恢复原始质量值
REMOVE_DUPLICATE_INFORMATION=true \ # 默认设置;移除重复信息
REMOVE_ALIGNMENT_INFORMATION=true # 默认设置;移除比对信息