مجموعة بيانات مثال لتحليل الجينوم Gatk_benchmark
Date
Publish URL
Paper URL
License
Other
GATK (مجموعة أدوات تحليل الجينوم) هي مجموعة أدوات مفتوحة المصدر في مجال المعلوماتية الحيوية تم تطويرها بواسطة معهد برود، وهو مشروع مشترك بين معهد ماساتشوستس للتكنولوجيا وجامعة هارفارد.
يهدف هذا المشروع إلى توفير عملية تحليل موحدة لبيانات التسلسل عالية الإنتاجية (NGS)، والتي تستخدم بشكل أساسي في:
- مراقبة الجودة (QC) لبيانات تسلسل الحمض النووي / الحمض النووي الريبي؛
- محاذاة التسلسل وإعادة المعايرة؛
- استدعاء المتغيرات، وتحديد SNPs، وInDels والمتغيرات الأخرى؛
- التنميط الجيني المشترك على مستوى السكان.
GATK هو أحد أطر التحليل الأكثر استخدامًا في مجال علم الجينوم ويُستخدم على نطاق واسع في تسلسل الجينوم البشري الكامل وأبحاث جينوم السرطان والطب الدقيق.
نتائج الورقة ذات الصلة هيمجموعة أدوات تحليل الجينوم: إطار عمل MapReduce لتحليل بيانات تسلسل الحمض النووي للجيل التالي"، نُشرت في عام 2010 من قبل معهد برود التابع لجامعة هارفارد ومعهد ماساتشوستس للتكنولوجيا، بالتعاون مع مركز علم الوراثة البشرية في مستشفى ماساتشوستس العام.
مقدمة لمجموعة البيانات العينة
يستخدم خط أنابيب تحليل GATK ملفات BAM غير المتوافقة (uBAM) كنقطة انطلاق موحدة، بينما تُنتج أجهزة التسلسل عادةً ملفات FASTQ أو ملفات BAM متوافقة مسبقًا. لضمان اتساق التحليل وقابليته للتكرار، يجب تحويل البيانات من مصادر مختلفة إلى صيغة uBAM.
يوفر هذا المشروع مثالين نموذجيين يوضحان:
- خط أنابيب التحويل من FASTQ إلى BAM غير المحاذي (FastqToSam)؛
- عملية الاستعادة من BAM المحاذي إلى BAM غير المحاذي (RevertSam).
tutorial6484FastqToSam.tar.gz
تحتوي مجموعة البيانات هذه على ملفات بتنسيق FASTQ، وهي البيانات الخام التي يُخرجها المُسلسِل. تُسجل هذه الملفات التسلسل الأساسي وقيمة جودة التسلسل لكل قراءة للحمض النووي. تُستخدم هذه الملفات لتوضيح كيفية استخدام أداة FastqToSam من Picard لتحويل ملفات FASTQ للتسلسل ذي النهايات المزدوجة إلى BAM غير مُحاذي، وتوليدها. .bam ملف يحتوي على التسلسل الخام وقيم الجودة ومعلومات مجموعة القراءة، ولكن بدون أي معلومات حول موضع المحاذاة.
- مثال على أمر التحويل:
bash
java -Xmx8G -jar picard.jar FastqToSam \
FASTQ=6484_snippet_1.fastq \ # 双端测序中的第一个读段文件
FASTQ2=6484_snippet_2.fastq \ # 双端测序中的第二个读段文件
OUTPUT=6484_snippet_fastqtosam.bam \
READ_GROUP_NAME=H0164.2 \ # 必需;读组名称(默认值为 A,此处已修改)
SAMPLE_NAME=NA12878 \ # 必需;样本名称
LIBRARY_NAME=Solexa-272222 \ # 必需;文库名称
PLATFORM_UNIT=H0164ALXX140820.2 \
PLATFORM=illumina \ # 推荐;测序平台类型(如 Illumina)
SEQUENCING_CENTER=BI \
RUN_DATE=2014-08-20T00:00:00-0400 # 测序运行日期与时间
tutorial6484RevertSam.tar.gz
هذه المجموعة من البيانات بصيغة BAM، وهو ملف ثنائي يُنشأ عن طريق تطبيع أو محاذاة التسلسلات في ملفات FASTQ. يخزن هذا الملف التسلسلات ومواقعها على الجينوم بكفاءة أعلى. يوضح هذا المثال كيفية استخدام أداة RevertSam من Picard لاستعادة ملفات BAM الممحاذاة إلى حالة غير متوازية لإعادة المحاذاة أو إعادة التحليل.
- مثال على أمر التحويل:
bash
java -Xmx8G -jar /path/picard.jar RevertSam \
I=6484_snippet.bam \
O=6484_snippet_revertsam.bam \
SANITIZE=true \
MAX_DISCARD_FRACTION=0.005 \ # 仅用于信息提示,不影响处理过程
ATTRIBUTE_TO_CLEAR=XT \
ATTRIBUTE_TO_CLEAR=XN \
ATTRIBUTE_TO_CLEAR=AS \ # 自 2015 年 9 月的 Picard 版本起,AS 属性默认会被清除
ATTRIBUTE_TO_CLEAR=OC \
ATTRIBUTE_TO_CLEAR=OP \
SORT_ORDER=queryname \ # 默认设置;按查询名排序
RESTORE_ORIGINAL_QUALITIES=true \ # 默认设置;恢复原始质量值
REMOVE_DUPLICATE_INFORMATION=true \ # 默认设置;移除重复信息
REMOVE_ALIGNMENT_INFORMATION=true # 默认设置;移除比对信息 Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.